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序 


人 类 社会 已 经 进入 数字 经 济 时 代 , 大 数据 、 云 计算 、 机 器 学 习 、 人 工 智 能 等 技术 纷 
至 珍 来 ,数据 的 管理 和 应 用 已 经 渗透 到 每 一 个 行业 的 业务 领域 ,成 为 当今 乃至 将 来 企 
业 运 作 的 基础 资产 。 只 有 掌握 数据 并 善于 运用 数据 的 人 , 才 会 在 未 来 社会 日 益 激 列 
的 竞争 环境 中 保持 领先 地 位 。 

Python 语言 很 好 地 融合 了 大 数据 分 析 、 机 器 学 习 以 及 人 工 智 能 技术 ,是 目前 大 
数据 和 机 器 学 习 领 域 热门 的 语言 之 一 。 本 书 为 学 习 者 深入 浅 出 地 介绍 Python 数据 
分 析 的 原理 、 建 模 过 程 \ 统 计 应 用 方法 ,具有 极 强 的 实践 性 。 

本 书 基于 Python 3. 5 工具 环境 ,通过 实践 案例 讲解 Python 控制 .处 理 , 分 析 数 据 
的 算法 和 工具 ,让 学 生 了 解 如 何 利 用 Python 编程 和 数据 处 理 库 ( 包 括 NumPy、SciPy、 
Matplotlib、Pandas 及 Scikit-learn 等 ) 高 效 地 解决 各 种 数据 分 析 问 题 , 发 挥 Python 在 
数据 分 析 、 可 视 化 .机 器 学 习 、 地 理 空间 信息 分 析 方 面 的 优势 ,引导 读者 成 为 数据 分 析 
的 高 手 。 

本 书 内 容 严谨 ,多 辑 清晰 ,可 供 计算 机 科学 与 技术 专业 以 及 信息 管理 与 信息 系 
统 .电子 商务 等 信息 管理 类 的 本 科 与 研究 生 学 习 使 用 ,为 大 数据 时 代 的 企业 管理 、 市 
场 营销 、 金 融 等 行业 从 事 大 量 数据 分 析 的 从 业 人 员 提 供 科学 的 学 习 资 源 。 
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前 言 


Python 是 大 数据 时 代 非 常 受 欢迎 的 数据 分 析 编 程 语言 ,近年 来 随 着 机 器 学 习 、 
云 计算 、 人 工 智能 等 技术 的 发 展 ,Python 的 流行 趋势 扶 摇 直上 ,已 经 成 为 数据 分 析 和 
数据 科学 事实 上 的 标准 语言 和 标准 平台 之 一 。 

本 书 针对 数据 分 析 人 员 和 Python 编程 学 习 者 进行 内 容 编 排 和 章节 讲述 ,Python 
数据 分 析 整 个 学 习 路 线 图 计划 分 成 16 周 ,120 天 左右 。 本 书 主要 内 容 包括 以 下 五 大 
部 分 。 

(1) Python 工作 环境 及 基础 语法 知识 : 认识 Python 程序 运行 方式 ,使 用 Python 
3.5 开发 集成 环境 与 工具 ; 学 习 Python 程序 基本 结构 ,理解 Python 的 面向 对 象 定义 
和 类 、 对 象 的 操作 方法 ,以 及 Python 异常 处 理 机 制 。 本 部 分 为 基础 内 容 ,建议 学 习 时 
间 为 4 周 。 

(2) Python 数据 分 析 相 关 知 识 : Python 生态 系统 为 数据 分 析 师 和 数据 科学 家 提 
供 了 各 种 程序 库 ,例如 NumPy、SciPy、Pandas 和 Matplotlib ,使 其 在 数据 分 析 领 域 也 
有 广泛 的 应 用 。Python 数据 分 析 的 学 习 主 要 是 对 相关 库 的 使 用 ,例如 数据 整理 需要 
用 到 NumPy 库 ,数据 描述 与 分 析 则 主要 用 到 Pandas 库 。 由 于 有 前 面 的 学 习 基 础 ,本 
部 分 学 习 时 间 建 议 为 3 周 。 

(3) Python 数据 可 视 化 : Python 数据 可 视 化 的 过 程 就 是 学 习 Matplotlib 库 的 过 
程 ,Matplotlib 库 包 含 丰富 的 数据 可 视 化 资源 ,地 图 、3D 等 都 有 涉及 ,基于 前 面 两 部 分 
的 学 习 经 验 ,这 部 分 内 容 在 两 周 内 基本 可 以 完成 。 

(4) Python 机 器 学 习 : Scikit-learn 是 本 书 所 使 用 的 核心 程序 库 , 依 托 于 上 述 几 
种 工具 包 , 封 装 了 大 量 的 经 典 以 及 最 新 的 机 器 学 习 模 型 。 通 过 介绍 有 监督 和 无 监督 
机 器 学 习 原 理 , 学 习 有 监督 学 习 的 线性 回归 、Logistic 回归 、 朴 素 贝 叶 斯 、 SVM、KNN 
和 决策 树 等 几 个 常用 算法 ,以 及 无 监督 学 习 的 K-Means 聚 类 算法 。 在 前 面 三 部 分 学 
习 的 基础 上 ,本 部 分 内 容 建议 学 习 时 间 在 4 周 左右 。 

(5) Python 地 理 空间 数据 分 析 应 用 : 向 读者 介绍 地 理 空间 分 析 的 基本 概念 和 常 
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用 的 地 理 空间 数据 ,然后 介绍 Python 中 与 地 理 数 据 处 理 和 地 理 分 析 相 关 的 工具 ,最 
后 以 Python 处 理 和 分 析 矢 量 数据 与 栅 格 数据 的 方法 ,对 浙江 省 实施 的 “五 水 共 治 ” 行 
动 中 劣 五 类 水 体 在 地 理 空间 模型 上 分 布 的 卫星 图 像 数据 进行 可 视 化 数据 分 析 的 综合 
应 用 ,本 部 分 内 容 建议 学 习 时 间 为 3 周 。 

本 书 编写 人 员 具 有 丰富 的 Python 数据 分 析 实 践 经 验 和 多 年 的 信息 管理 教学 能 
力 , 第 1~3 章 由 沈阳 工业 大 学 李 艺 老师 编写 ; 第 4 一 7、10 章 由 杭州 电子 科技 大 学 柳 
角 老 师 编写 ; 第 8、9、11、12 章 由 杭州 电子 科技 大 学 毛 峰 老师 编写 ; 王 健 、 陆 佳 澳 等 硕 
士 研 究 生 参与 了 本 书 相关 章节 内 容 和 程序 代码 的 完善 工作 ; 浙江 工业 大 学 计算 机 科 
学 与 技术 学 院 院 长 .国家 教学 名 师 王 万 良 教授 对 本 书 进行 了 认真 的 审阅 ,并 提出 许多 
宝贵 的 建设 性 意见 ,使 本 书 内 容 日 至 完善 ,在 此 对 他 们 所 付出 的 辛勤 劳动 表示 诚挚 的 
感谢 。 

本 书 结合 大 数据 管理 与 应 用 的 最 新 发 展 ,针对 计算 机 科学 与 技术 ,信息 管理 与 信 
息 系统 、 电 子 商 务 等 经 管 类 本 科教 学 特点 进行 撰写 。 本 书 提供 教学 课件 .教学 大 纲 、 
电子 教案 .习题 答案 和 程序 源码 ,读者 可 以 扫描 封底 的 课件 二 维 码 下 载 。 本 书 还 提供 
400 分 钟 的 视频 讲解 ,扫描 书 中 的 二 维 码 ,可 以 在 线 观 看 。 

由 于 编者 水 平 所 限 , 书 中 难免 有 踢 漏 之 处 , 敬 请 读者 批评 指正 。 


编 者 
2019 年 3 月 
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Python 简介 


本 章 学 习 目 标 : 

。 了 解 Python 语言 的 发 展 历史 及 特点 

。 深刻 了 解 Python 2 和 Python 3 的 区 别 

。 热 练 掌握 Python 中 IDLE 的 编程 特点 

。 熟练 掌握 Python 的 开发 环境 

本 章 首 先 向 读者 介绍 Python 发 展 的 历史 及 其 特点 ; 然后 分 析 Python 2 与 
Python 3 不 同 的 编程 特点 ; 接着 以 Eclipse 十 PyDev 为 例 对 Python 的 环境 搭建 进行 介 
绍 ,并 对 Python 自 带 的 IDLE 界面 进行 讲解 ; 最 后 对 Python 的 各 种 开发 环境 进行 讲解 。 


1.1 Python 语言 的 发 展 史 


Python 的 作者 是 荷兰 人 Guido von Rossum, 尽 管 拥 有 阿姆斯特丹 大 学 数学 和 计 
算 机 双 硕 士 学 位 ,Guido 总 趋向 于 做 计算 机 相关 的 工作 ,并 热衷 于 做 任何 与 编程 相关 
的 活 儿 。Guido 接触 并 使 用 过 Pascal、.C、Fortran 等 语言 ,这 些 语 言 的 基本 设计 原则 
是 让 计算 机 能 更 快 地 运行 。 在 20 世纪 80 年 代 , 虽 然 IBM 和 苹果 公司 已 经 掀起 了 个 
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人 计算 机 浪潮 ,但 这 些 个 人 计算 机 的 配置 很 低 。 所 有 的 编译 器 的 核心 是 做 优化 ,以 便 
让 程序 能 够 运行 。 为 了 提高 效率 ,语言 也 迫使 程序 员 像 计算 机 一 样 思考 ,以 便 能 写 出 
更 适合 计算 机 的 程序 。 在 那个 时 代 , 程 序 员 恨不得 拥有 使 用 计算 机 每 一 点 空间 的 能 
力 , 有 人 甚至 认为 C 语言 的 指针 是 在 浪费 内 存 。 至 于 动态 类 型 .内 存 自 动 管理 、 面 向 
对 象 等 , 那 就 不 用 想 了 ,否则 会 让 计算 机 陷入 瘫痪 。 

这 种 编程 方式 让 Guido 感到 苦恼 。Guido 知道 如 何 用 C 语言 写 出 一 个 功能 ,但 
整个 编写 过 程 需 要 耗费 大 量 的 时 间 。 他 的 另 一 个 选择 是 Shell。Bourne Shell 作为 
UNIX 系统 的 解释 器 已 经 长 期 存在 ,UNIX 的 管理 员 们 经 常用 Shell 去 写 一 些 简 单 的 
脚本 ,以 进行 一 些 系 统 维 护 的 工作 ,比如 定期 备份 .文件 系统 管理 等 。 许 多 用 C 语言 
编写 上 百 行 的 程序 ,在 Shell 下 只 用 几 行 就 可 以 完成 。 然 而 , Shell 的 本 质 是 调用 命 
令 , 它 并 不 是 一 个 真正 的 语言 。 比 如 说 ,Shell 没有 数值 型 的 数据 类 型 ,即使 加 法 运算 
也 很 复杂 。 总 之 ,Shell 不 能 全 面 地 调用 计算 机 的 功能 。 

Guido 希望 有 一 种 语言 能 够 像 C 语言 那样 可 以 全 面 调用 计算 机 的 功能 接口 ,又 
能 够 像 Shell 那样 可 以 轻松 地 编程 ,ABC 语言 让 Guido 看 到 希望 。ABC 是 由 荷兰 的 
数学 和 计算 机 研究 所 开发 的 。Guido 在 该 研究 所 工作 ,并 参与 到 ABC 语言 的 开发 
中 。 与 当时 的 大 部 分 语言 不 同 ,ABC 语言 的 目标 是 “让 用 户 感觉 更 好 ”。ABC 语言 希 
望 让 程序 变 得 容易 阅读 、 使 用 、 记 忆 和 学 习 , 并 以 此 来 激发 人 们 学 习 编 程 的 兴趣 。 尽 
管 已 经 具备 了 良好 的 可 读 性 和 易 用 性 ,但 ABC 语言 最 终 没 有 流行 起 来 。 在 当时 ABC 
语言 的 设计 也 存在 一 些 致 命 的 问题 。 

(1) ABC 语言 不 是 模块 化 语言 。 如 果 想 在 ABC 语言 中 增加 功能 ,比如 对 图 形 化 
的 支持 ,就 必须 改动 很 多 地 方 。 

(2) ABC 语言 不 能 直接 操作 文件 系统 。 尽 管用 户 可 以 通过 诸如 文本 流 的 方式 导 
入 数据 ,但 ABC 语言 无 法 直接 读 写 文件 ,输入 输出 的 困难 对 于 计算 机 语言 来 说 是 致 
命 的 。 

(3) ABC 语言 用 自然 语言 的 方式 来 表达 程序 的 意义 ,然而 对 于 程序 员 来 说 ,他 们 
更 习惯 用 function 或 者 define 来 定义 一 个 函数 ,用 等 号 来 分 配 变量 。 尽 管 ABC 语言 
很 特别 ,但 学 习 难 度 也 很 大 。 

(4) ABC 语言 编译 器 很 大 ,必须 被 保存 在 磁带 上 ,这 样 ABC 语言 很 难 快速 传播 。 

1989 年 ,为 了 打发 圣诞 节 假 期 ,Guido 开始 写 Python 语言 的 编译 器 。“Python” 
这 个 名 字 来 自 Guido 所 击 爱 的 电视 剧 Monty Python”s Flying Circus。 他 希望 
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Python 语言 能 符合 他 的 理想 一 一 创造 一 种 C 和 Shell 之 间 的 功能 全 面 、 易 学 易 用 、 可 
拓展 的 语言 。1991 年 ,第 一 个 Python 编译 器 诞生 。 它 是 用 C 语言 实现 的 ,并 能 够 调 
用 C 语言 的 库 文件 。 从 一 诞生 ,Python 已 经 具有 了 类 、 函 数 、 异 常 处 理 , 包 含 表 和 词 
典 在 内 的 核心 数据 类 型 ,以 及 以 模块 为 基础 的 拓展 系统 。 

Python 语法 很 多 来 自 C 语 言 ,但 又 受到 ABC 语言 的 很 大 影响 。 来 自 ABC 语 
言 的 一 些 规定 直到 今天 还 有 争议 ,比如 强制 缩 进 ,但 这 些 语 法 规定 让 Python 容易 
阅读 。 另 外 ,Python 聪明 地 选择 服从 一 些 惯例 ,特别 是 C 语言 的 惯例 ,比如 回归 等 
号 赋值 。 

Python 从 一 开始 就 特别 注重 可 拓展 性 ,Python 可 以 在 多 个 层次 上 拓展 。 用 户 可 
以 直接 引入 . py 文件 ,也 可 以 引用 C 语言 的 库 。Python 程序 员 可 以 快速 地 使 用 
Python 写 . py 文件 作为 拓展 模块 ,但 当 性 能 是 考虑 的 重要 因素 时 ,Python 程序 员 可 
以 深入 底层 写 C 程序 ,编译 为 . so 文件 引入 到 Python 中 使 用 。Python 就 好 像 是 使 
用 钢 构 建 房 一 样 , 先 规定 好 大 的 框架 ,而 程序 员 可 以 在 此 框架 下 自由 地 拓展 或 
更 改 。 

最 初 的 Python 完全 由 Guido 本 人 开发 。Python 受到 Guido 同事 的 欢迎 ,他 们 迅 
速 地 反馈 使 用 意见 ,并 参与 到 Python 的 改进 中 。Guido 和 一 些 同事 构成 Python 的 
核心 团队 ,他 们 将 自己 的 大 部 分 业余 时 间 用 于 hack Python。 随 后 ,Python 被 拓展 到 
研究 所 之 外 。Python 将 许多 机 器 层面 上 的 细节 隐藏 , 交 给 编译 器 处 理 , 并 凸显 出 好 
辑 层 面 的 编程 思考 。Python 程序 员 可 以 花 更 多 时 间 用 于 思考 程序 的 逻辑 ,而 不 是 具 
体 的 实现 细节 ,这 一 特征 吸引 了 广大 的 程序 员 ,Python 开始 流行 。 

Guido 维护 了 一 个 邮件 列表 ,Python 用 户 能 通过 邮件 进行 交流 。Python 用 户 来 
自 许多 领域 ,不 同 的 背景 对 Python 也 有 不 同 的 需求 。Python 相当 开放 ,又 容易 拓 
展 ,所 以 当 用 户 不 满足 现 有 功能 时 很 容易 对 Python 进行 拓展 或 改造 。 随 后 ,这 些 用 
户 将 改动 发 给 Guido, 并 由 Guido 决定 是 否 将 新 的 特征 加 入 到 Python 或 者 标准 库 中 。 
如 果 代 码 能 被 纳入 Python 自身 或 者 标准 库 ,这 将 是 极 大 的 荣誉 。 由 于 Guido 有 着 至 
高 无 上 的 决定 权 , 所 以 他 被 称 为 “终身 的 仁慈 独裁 者 ”。 

Python 被 称 为 "Battery Included”, 是 说 它 的 标准 库 功 能 强大 。 这 是 整个 社区 的 
贡献 ,Python 的 开发 者 来 自 不 同 领域 ,他 们 将 不 同 领域 的 优点 带 给 Python, 比如 
Python 标准 库 中 的 正则 表达 式 参 考 Perl, 而 lambda 匿名 函数 以 及 map() filter()、 
reduce() 等 函数 参考 了 Lisp。 在 Python 的 开发 过 程 中 ,社区 起 到 了 重要 的 作用 。 
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Guido 认为 自己 不 是 全 能 型 的 程序 员 , 所 以 他 只 负责 制订 框架 ,如 果 问 题 太 复杂 ,他 
会 选择 绕 过 去 ,也 就 是 cut the corner, 这 些 问 题 最 终 由 社区 中 的 其 他 人 解决 。 社 区 中 
的 人 才 是 异常 丰富 的 ,就 连 创 建 网 站 、 筹 集 基 金 这 样 与 开发 稍 远 的 事情 也 有 人 乐于 
处 理 。 如 今 的 项 目 开 发 越 来 越 复杂 , 越 来 越 庞 大 ,合作 以 及 开放 的 心态 成 为 项 目 最 
终 成 功 的 关键 。 从 Python 2 开始 ,Python 从 maillist 的 开发 方式 转 为 完全 开源 的 开 
发 方式 ,社区 气氛 已 经 形成 ,工作 被 整个 社区 分 担 ,Python 也 获得 了 更 加 高 速 的 
发 展 。 

到 今天 ,Python 的 框架 已 经 确立 。Python 语言 以 对 象 为 核心 组 织 代码 ,支持 多 
种 编程 范式 ,采用 动态 类 型 ,自动 进行 内 存 回 收 。Python 支持 解释 运行 ,并 能 调用 C 
库 进 行 拓 展 。Python 有 强大 的 标准 库 , 由 于 标准 库 的 体系 已 经 稳定 ,所 以 Python 的 
生态 系统 开始 拓展 到 第 三 方 包 , 这 些 包 有 Django、 web. py、wxPython、NumPy、 
Matplotlib 、PIL 。 

Python 崇尚 优美 清晰、 简单 ,是 一 种 优秀 并 广泛 使 用 的 语言 。2018 年 Python 
在 TIOBE 排行 榜 中 排行 第 三 , 它 是 Google 的 第 三 大 开发 语言 .Dropbox 的 基础 语 
言 . 豆 准 的 服务 器 语言 。 

Python 从 其 他 语言 中 学 到 了 很 多 ,无 论 是 已 经 进入 历史 的 ABC, 还 是 依然 在 使 
用 的 C 和 Perl, 甚 至 是 许多 没有 列 出 的 其 他 语言 。 可 以 说 ,Python 的 成 功 代表 了 它 
借鉴 的 所 有 语言 的 成 功 。 

无 论 Python 未 来 的 命运 如 何 , Python 的 历史 已 经 很 有 趣 了 。 


1.1.1 Python 语言 的 特点 


1. Python 语言 的 优点 


(1) Python 非常 简单 ,适合 阅读 ,阅读 一 个 良好 的 Python 程序 就 像 是 在 读 英语 
一 样 ,尽管 这 个 英语 的 要 求 非常 严格 。Python 的 这 种 伪 代 码 本 质 是 它 最 大 的 优点 之 
一 , 它 使 用 户 能 够 专注 于 解决 问题 而 不 是 去 搞 明 白 语言 本 身 。 

(2) 易学 : Python 虽然 是 用 C 语言 写 的 ,但 是 它 按 弃 了 C 中 非常 复杂 的 指针 , 简 
化 了 Python 的 语法 。 

(3) Python 是 FLOSS( 自 由 /开放 源 代码 软件 ) 之 一 。 简 单 地 说 ,用 户 可 以 自由 
地 发 布 这 个 软件 的 副本 、 阅 读 它 的 源 代码 、 对 它 做 改动 ,把 它 的 一 部 分 用 于 新 的 自由 
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软件 中 。 

(4) 可 移植 性 : 由 于 开源 本 质 ,Python 已 经 被 移植 到 许多 平台 上 (经 过 改动 使 它 
能 够 工作 在 不 同 平台 上 )。 如 果 用 户 小 心地 避免 使 用 依赖 于 系统 的 特性 ,那么 所 有 的 
Python 程序 无 须 修改 就 可 以 在 Linux、Windows、FreeBSD、Macintosh、Solaris、OS/2 
以 及 Google 基于 Linux 开发 的 Android 平 台 上 运行 。 

(5) Python 解释 器 把 源 代码 转换 成 字 节 码 的 中 间 形 式 ,然后 把 它 翻译 成 计算 机 
使 用 的 机 器 语言 并 运行 。 因 此 ,由 于 用 户 不 再 需要 担心 如 何 编译 程序 、 如 何 确 保 连 接 
转载 正确 的 库 等 ,所 有 这 一 切 使 得 使 用 Python 更 加 简单 。 

(6) Python 既 支 持 面向 过 程 的 函数 编程 ,也 支持 面向 对 象 的 抽象 编程 。 在 面 
向 过 程 的 语言 中 ,程序 是 由 过 程 或 可 重用 代码 的 函数 构建 起 来 的 ; 在 面向 对 象 的 
语言 中 ,程序 是 由 数据 和 功能 组 合 而 成 的 对 象 构建 起 来 的 。 与 其 他 主要 的 语言 
(例如 C++ 和 Java) 相 比 , Python 以 一 种 非常 强大 且 简 单 的 方式 实现 面向 对 象 
编程 。 

(7) 可 扩展 性 和 可 嵌入 性 : 如 果 用 户 需 要 让 自己 的 一 段 关键 代码 运行 得 更 快 或 
者 希望 某 些 算法 不 公开 ,可 以 将 部 分 程序 用 C 或 C++ 编写 ,然后 在 自己 的 Python 程 
序 中 使 用 它们 。 用 户 可 以 把 Python 嵌入 到 自己 的 C/C++ 程序 ,从 而 向 程序 用 户 提 供 
脚本 功能 。 

(8) Python 有 很 庞大 的 标准 库 。 它 可 以 帮助 用 户 处 理 各 种 工作 ,包括 文档 生成 、 
单元 测试 、 线 程 、 数 据 库 .CGI、FTP、 电 子 邮 件 .XML、XMIL-RPC、HTML、WAV 文 
件 、 密 码 系 统 .GUI( 图 形 用 户 界面 )、Tk 和 其 他 与 系统 有 关 的 操作 。 记 住 ,只 要 安装 
了 Python, 所 有 这 些 功 能 都 是 可 用 的 。 除 了 标准 库 以 外 ,还 有 许多 其 他 高 质量 的 库 ， 
例如 wxPython、Twisted 和 Python 图像 库 等 。 


2. Python 语言 的 缺点 


(1) 在 很 多 时 候 不 能 将 Python 程序 连 写成 一 行 ,例如 “import sys; for i in sys. 
path: print i”。 

(2) 运行 速度 : 如 果 有 速度 要 求 , 用 C++ 改 写 关 键 部 分 。 不 过 对 于 用 户 而 言 ,机 
器 上 的 运行 速度 是 可 以 忽略 的 ,因为 用 户 根本 感觉 不 出 这 种 速度 的 差异 。 

(3) Python 的 开源 性 使 得 Python 语言 不 能 加 密 。 

(4) Python 构架 选择 太 多 (没有 像 C# 这 样 的 官方 . NET 构架 ,也 没有 像 Ruby 
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由 于 历史 较 短 ,构架 开发 的 相对 集中 ), 不 过 这 也 从 另 一 个 侧面 说 明 Python 比较 优 
秀 , 吸 引 的 人 才 多 ,项 目 也 多 。 


1.1.2 Python 2 与 Python 3 的 区 别 


(1) 在 Python 3 中 ,print 不 再 是 语句 ,而 是 函数 ,比如 原来 是 print 'abc' 现在 是 
print('abc' ) ,但 是 在 Python 2.6 以 上 版 本 可 以 使 用 from _ future _ import print_ 
function 来 实现 相同 的 功能 。 

(2) 在 Python 3 中 没有 旧式 类 ,只 有 新 式 类 ,也 就 是 说 不 用 再 像 “class Foobar 
(object) : pass” 这 样 显 式 地 子 类 化 object, 但 是 最 好 加 上 “.”, 主 要 区 别 在 于 old-style 
是 classtype 类 型 ,而 new-style 是 type 类 型 。 

(3) 原来 1/2( 两 个 整数 相 除 ) 的 结果 是 0, 现 在 是 0.5。Python 2.2 以 上 版 本 都 
可 以 使 用 from __future _ import division 实现 该 特性 ,同时 要 注意 “//” 取 代 了 之 前 
的 “5 

(4) 新 的 字符 串 格式 化 方法 format() 取 代 外 。 从 Python 2.6 以 上 版 本 开始 在 
str 和 unicode 中 有 该 方法 ,同时 Python 3 依然 支持 % 运 算 符 。 

(5) xrange 重 命名 为 range, 同 时 更 改 的 还 有 一 系列 内 园 函 数 及 方法 ,它们 都 返 
回 迭 代 器 对 象 , 而 不 是 列表 或 者 元 组 ,比如 filter()、map() 、dict. items 等 。 

(6) ! 三 取代 < >: 在 Python 2 中 很 少 有 人 用 < >, 所 以 也 不 算 什么 修改 。 

(7) long 重 命名 为 int: Python 3 彻底 废弃 了 long 十 int( 双 整数 ) 实 现 的 方法 , 统 
一 为 int, 支 持 高 精度 整数 运算 。 

(8) “except Exception, e” 变 成 “except (Exception) as e”: 只 有 Python 2.5 及 以 
下 版 本 不 支持 该 语法 ,Python 2.6 是 支持 的 ,不 算 新 功能 。 

(9) exec 变 成 函数 ,类 似 print() 的 变化 ,之 前 是 语句 。 


简单 补充 一 下 : 
(1) 主要 是 类 库 的 变化 ,组 织 结构 变 了 一 些 , 但 功能 没 变 ,例如 urlparse~urllib. 
parse 这 样 的 变化 。 


(2) 对 bytes 和 原生 unicode 字符 串 的 支持 ,删除 了 unicode 对 象 ，str 为 原生 
unicode 字符 串 ， bytes 代替 了 之 前 的 str, 这 是 最 核心 的 。 
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1.2 Python 的 环境 搭建 


(1) 进入 Python 官方 网 站 (https://www. python. org/ downloads/) 下 视频 讲解 
载 软件 包 , 如 图 1. 1 所 示 选 择 圈 中 区 域 进行 下 载 。 


图 1.1 Python 官方 网 站 


(2) 下 载 完成 后 如 图 1. 2 所 示 。 


[可 1 回 和 看 * i -= DX 
本 于 = 二 as © 
个 量 < 用 ，huan ， 下 载 Y 已 | | 搜索 "下 载 " 7 
园 图 片 好 A 名 称 修改 日 期 类 型 
MD 加 2016-1-cy-oracle-labl.doc 2016/9/24 16:40 。 Microsoft 
sdl 履 AfterEffects CC 13 2 fuzip 2016/9/24 15:40 。 WinRAR ZI 
System32 便 chinese11 中 文 语言 包 .exe 2016/2/16 17:38 ”应 用 程序 
国 keygenexe 2011/9/26 7:36 。 ”应 用 程序 
加 plsqldev1106x64.exe 2016/5/19 14:06 ”应 用 程序 
器 PLSQLDeveloper.rar 2016/9/24 18:57 。 WinRAR 压 
python-3.5.2.exe 2016/9/25 16:37 ”应 用 程序 
里 :hyanrar 2016/9/24 15:44 。 WinRAR 压 
俩 vs10sp1-KB983509.exe 2016/9/24 20:16 。 应 用 程序 


本 地 磁盘 (C:) 
= LENOVO (Dj 
二 本 地 磁盘 (E;) 


vx 


9 个 项 目 。 选中 1 个 项 目 27.9 MB 加 


图 1.2 下 载 成 功 后 的 Python 软件 包 
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(3) 双击 . exe 文件 进行 安装 ,如 图 1. 3 所 示 , 并 按照 圈 中 区 域 进行 设置 ,切记 要 
勾 选 打 钩 的 框 , 然 后 单 击 Customize installation 进入 到 下 一 步 , 如 图 1.4 所 示 。 


号 Python 3.5.1 (32-bil) Setup 一 x 


Install Python 3.5.1 (32-bit) 


Select Install Now to install Python with default settings, or choose 
Customize to enable or disable features. 


四 Install Now 
CiNUsersWcoderAppData\LocalNprograms\PythonNpython35-32 


Includes IDLE, pip and documentation 


3D Creatés shortcuts and file associatioris 
ES 一 Customize installation 
Choose location and features 


回 Installlauncher for all users (recommeril 
Add Python 3.5 to PATH 


python 
windows 


1.3 Python 安装 的 初始 化 界面 


中 Python 3.5.1 (32-big Setup 二 x 


Optional Features 


回 Documentation 
Installs the Python documentation file. 


pip 
Installs pip, which can download and install other Python packages. 


i td/tk and IDLE 


7 Installs tkinter and the,IDLE development environment. 
i 


[9 


Python test suite 
Installs the standard library test suite. 


回 py launcher 回 for all users (requires elevation) 
Installs the global 'py' launcher to make it easier to start Python. 


python 
windows Back Nea | | Cancs 


1.4 Python 安装 过 程 中 的 配置 选择 


(4) 对 于 图 1. 5, 可 以 通过 Browse 按钮 自 定义 安装 路 径 , 也 可 以 直接 单 击 Install 
按钮 进行 安装 , 单 击 Install 按钮 后 便 可 以 完成 安装 了 。 
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Python 3.5.1 (32-bil) Setup 一 CC 六 


Advanced Options 
口 Install for all users 
回 Associate files with Python (requires the py launcher) 


Create shortcuts for installed applications 

回 Add Python to environment variables 
ye) 口 Precompile standard library 

口 Download debugging symbols 


口 Download debug binaries (requires VS 2015 or later) 


a. 


Customize install location 


promm yen 


python 


windows Back instal | | Cancel 


图 1.5 Python 安装 过 程 中 的 路 径 选择 
安装 是 很 简单 的 ,但 是 大 家 要 注意 Python 要 和 Java 一 样 配置 环境 变量 。 首 先 
找到 Python 的 安装 位 置 ,然后 复制 一 下 。 
接着 进入 高 级 系统 设置 , 单 击 “ 环 境 变量 ”按钮 ,在 “环境 变量 ?对 话 框 的 “系统 变 
量 ” 列 表 框 中 找到 Path, 单 击 “ 编 辑 ” 按 钮 ,在 变量 值 后 面 添加 之 前 复制 的 Python 位 
置 ,在 这 前 面 加 上 英文 的 分 号 ,如 图 1.6 所 示 。 


入 必 性 
i RE 
要 进行 大 多 数 更 次 ， 您 必须 作为 管理 员 登 录 。 


性 能 
视觉 效果 ， 处 理 器 计划 ， 内 存 使 用 ， 以 及 虚拟 内 存 


用 户 配置 文件 
与 您 登录 有 关 的 桌面 设置 


D: Vanaconda;D: \anaconda\Library. .站 


COM; .EXE; . BAT;. CMD; . VBS; . VEE; 
AD64 


Tnielp4 Family R Madel FA Si 


,新建 0).. | [编辑 中 .| | 觅 半 0) | 


[再 ][ 了 


1.6 了 Python 安装 中 环境 变量 的 设置 
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(5) 剩 下 的 就 是 检验 Python 是 否 装 好 。 同 时 按 住 Win 键 和 有 R 键 , 单 击 * 确 定 ” 按 
钮 ,进入 命令 行 ,在 命令 行 中 输入 Python ,出现 Python 的 相关 信息 , 则 表示 Python 安 
装 好 了 。 


1.3 开始 使 用 Python IDLE 


1.3.1 交互 方式 


>>> 被 称 为 Python 命令 提示 符 (prompt) ,在 该 提示 符 下 ,Python 正在 等 待 用 
户 输入 代码 。 用 户 现在 输入 一 行 Python 代码 ,Python 就 会 执行 该 代码 。 这 种 模 
式 叫 Python 交互 模式 (interactive mode) ,因为 Python 在 等 竺 用户 输入 代码 ,然后 
执行 。 

例如 可 以 输入 一 个 表达 式 ,让 Python 进行 计算 。 例 如 要 计算 1 十 1, 可 以 在 命令 
提示 符 后 面 输入 1 十 1, 然 后 按 Enter 键 : 


lh | 


Python 就 会 输出 计算 结果 ,这 里 是 2。 如 果 要 退出 Python 交互 模式 ,可 以 在 
Python 命令 提示 符 后 输入 exit() 。 


>>> exit() 


当然 也 可 以 输入 quit() 。 


>>> quit() 


另外 ,还 可 以 输入 一 个 EOF( 文 件 尾 ,end of file) 字 符 , 在 Windows 上 是 Ctrl 十 Z, 在 
Linux 上 是 Ctrl 十 D。 对 于 以 后 的 代码 ,如果 出 现 以 >>> 开 头 的 行 ,就 代表 这 行 代 码 是 在 
Python 交互 模式 下 输入 的 。 在 Python 交互 模式 下 输入 代码 和 运行 . py 文件 是 有 区 别 
的 。 在 Python 命令 行 ,Python 会 等 待 用 户 一 行 一 行 地 输入 代码 ; 但 运行 . py 文件 时 用 
户 没有 这 个 机 会 ,而 且 一 般 运 行 完 一 个 . py 文件 就 会 立即 退出 (这 样 用 户 就 不 能 看 到 程 
序 输出 了 什么 )。 关 于 Python 交互 模式 还 有 更 多 的 细节 ,这 将 在 以 后 讨论 。 
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1.3.2 Python 的 集成 开发 环境 


除了 从 官网 中 下 载 的 Python 自 带 的 IDLE 之 外 ,还 有 几 款 风格 、 功 能 各 异 的 IDE 
(集成 开发 环境 ) ,下 面 分 别 介绍 。 


1. Eclipse with PyDev 


其 下 载 网 址 为 “http://pydev. org/”, 开 发 界面 如 图 1.7 所 示 。 


imporc unittest 
import 
import unittest as Unused import 


elass TestCase (unittest. TestCase): 


Gef testRohots (se1): 
from robots.core import Robot 
Foboc = Robor() 
robot. Valk() 
robot .SayHello() 


princ updefined varisble 


ae methodotWithself (fo0) 
pass 


| | 一 全 Robot (robots.core) 
~ @ methodvorwthser 
- 语 _man_ 


1.7 Eclipse with PyDev 的 开发 界面 
Eclipse 十 PyDev 插件 很 适合 开发 Python Web 应 用 ,其 特征 包括 代码 自动 完成 、 
语法 高 亮 显 示 、 代 码 分 析 .调试 器 以 及 内 置 的 交互 浏览 器 。 


2. Komodo Edit 


其 下 载 网 址 为 “http://komodoide. com/komodo-edit/”, 开发 界面 如 图 1.8 


所 示 。 


(2) Python 数据 分 析 与 实践 | 


Komodo Edit 


Nomodo Edu a the gme end open Srurce counterpart of Womade pe 
posng lerapoweru edtor mo en me advanced nctonapy mn OF comes mh? romodo Eg4 1s for yeu 


图 1.8 Komodo Edit 的 开发 界面 


Komodo Edit 是 一 个 免费 的 .开源 的 、 专 业 的 Python IDE, 其 特征 是 非 菜 单 的 操 
作 方 式 , 开 发 高 效 。 


3. Vim 


其 下 载 网 址 为 “http://www. vim. org/ download. php”, 开 发 界面 如 图 1.9 所 示 。 
Vim 是 一 个 简洁 、 高 效 的 工具 ,也 适合 做 Python 开发 。 


FONSOR ~ VOTE 
er 六 = 
re Downlosdng Vim 
-这 Vim s evatable for many ciflerert Systerms and here are Several versicons Trs pege wei he you 0e00% nhl to donrioed 
Er 
The mo populer 
momo MS-Wadows Chdk hs ink to Gomnioed pe Set-netaling execueabin 
avenced en 
Uee. See the Mercunal page 
Mew vim 
Ce Mac See the MecVim propeet 
mo 
Soometng 
FO Detals and optons for 
» Un 
。 PC MS-DOS andMS-Yindows 
» Amga 
» O52 Ou Global 
» Mcrtosh Om perro 
» Oners A Go 
Co 
cp We ve ses to jm tes 
到 Mmors 。 Atemasve stes to derload Vim fies om EC 
om ews) Sources Bubd Vim yourset andior makee changes pe 
Som Mercinal 。 Cetan Vn sources wa @ Mercunal dert (recommended Se 
ceo Patcnes .nove he latest rprovererts (reqares sources and rebaldng) 
到 Rurame。 Gel pe latest syrtar fies. documentason ote 
门 雹 Senpthrks Unis to ndwou aytar ndgert cokr Compyer ang 和 pgn scnpts 
Translaons NonEngish docunentaon peckages 
Versions botore 7 3 can eso be obtaned mg Subversion and CVS 


图 1.9 Vim 的 开发 界面 
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4. PyCharm 


PyCharm 是 由 JetBrains 打造 的 一 款 Python IDE。PyCharm 具备 一 般 Python 
IDE 的 功能 ,比如 调试 .语法 高 亮 显示 、 项 目 管理 .代码 跳 转 、 智 能 提示 、 代 码 自动 完 
成 .单元 测试 .版 本 控制 等 。 另 外 ,PyCharm 还 提供 了 一 些 很 好 的 功能 用 于 Django 开 
发 ,同时 支持 Google App Engine, 更 酷 的 是 PyCharm 支持 IonPython。 

PyCharm 的 官方 下 载 网 址 为 “http://www. jetbrains. com/pycharm/ download/”, 开 
发 界面 如 图 1. 10 所 示 。 


‘models.py - blog - [~/Projects/django-blog-engine/blog) - PyCharm (2.7 EAP) PY-125.29 


[Keke) 


图 1.10 PyCharm 的 开发 界面 


5. Sublime Text 


Sublime Text 具有 漂亮 的 开发 界面 ( 见 图 1.11) 和 强大 的 功能 ,例如 代码 缩 略 图 、 
Python 的 插件 和 代码 段 等 ,还 可 以 自 定义 键 绑 定 、 菜 单 和 工具 栏 。Sublime Text 的 
主要 功能 包括 拼写 检查 .书签 .完整 的 Python API、Goto 功能 .即时 项 目 切 换 、 多 选 
择 、 多 窗口 等 。Sublime Text 是 一 个 跨 平 台 的 编辑 器 ,同时 支持 Windows、Linux、 
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了 


Mac OS X 等 操作 系统 。 


加 Demonstration - Sublime Text 2 = 
File Edit Selection Find View Goto Tooks Project Preferences Help 
FOLDERS 
loader.py 
T django 
六 bn pe r(LoaderOrigin, self)._ init. (disptay nanme) 
Pp conf self. loader, self. loadname, self.dirs = loader, nane, dirs 
bp contrib js 
bP core self. loader(self. loadname, self.dirs) [9] 
pdb 
di , ,name, ): 
bp dispatch gs.TEMPLATE_DEBUG and display_name: 
forms LoaderOrigin(display_name, loader, nane, dirs) 
Phup : 
bb middleware 
上 shortcuts def | 
b template nstan TE ( st)): 
i loader, args loader [0], loader [1:] 
bP test args = [] 
Pp unls sinstance( loader, basestring): 
S module, attr = loader. mp 全 
_ni_py mod = import_module(module) 
i 
ImproperlyConfigured( ‘Error importing template source loa' 
TemplateLoader 9 


33 characters selected 


图 1.11 Sublime Text 的 开发 界面 


使 用 Sublime Text 2 的 插件 扩展 功能 ,用 户 可 以 轻松 地 打造 一 款 不 错 的 Python 
IDE, 以 下 推荐 几 款 插件 (用 户 可 以 找到 更 多 )。 

。 CodeIntel: 自动 补 全 十 成 员 / 方 法 提示 (强烈 推荐 ); 

。 SublimeREPL: 用 于 运行 和 调试 一 些 需 要 交互 的 程序 ; 

。 Bracket Highlighter: 括号 匹配 及 高 亮 显示 

。 SublimeLinter: 代码 pep8 格式 检查 。 


1.4 Eclipse 十 PyDev 的 安装 


1. 安装 Eclipse 


Eclipse 可 以 在 它 的 官方 网 站 找到 并 下 载 ,通常 用 户 可 以 选择 适合 自己 的 Eclipse 
版 本 ,比如 Eclipse Classic。 下 载 完成 后 解压 到 自己 想 安装 的 目录 中 即 可 。 

当然 ,在 执行 Eclipse 之 前 用 户 必 须 确 认 安 装 了 Java 运行 环境 , 即 必 须 安 装 JRE 
或 JDK ,用户 可 以 到 “http://www.java. com/en/download/manual. jsp” 找 到 JRE 下 
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载 并 安装 。 


2. 安装 PyDev 


在 运行 Eclipse 之 后 ,选择 Help 习 Install New Software 命令 ,如 图 1. 12 所 示 。 


er Bn Find EE 
史 - 二 已 -| 国 racm。 
@@ telp Contents 
search 
Dynanic Help 
Key Assist CtrltShifttL 
Lips and Tricks 
研 haport Bug or Enhancement. 
Cheat Sheets. 


Check for Updates 


About Eclipse 


1.12 PyDev 的 安装 


单 击 Add 按钮 ,添加 PyDev 的 安装 地 址 “http://pydev. org/updates/” 如 


图 1.13 所 示 。 


Available Software 
Select a site or enter the location of s site, 


ork with: [type or select s site 国 [C sm.._] 
Find nore softvere by vorking with the “Arallable Softrars Sitax preferences, 


Dinils 


Show only the atest versions of evailoble software 回族 te itens that wre slresdy installed 
rowp itens by eateeory het is shredr installed? 


Goatoet un qdate sites ting iastall to find required softwwre 


@ rr Duh ce ] 


图 1.13 添加 安装 地 址 


完成 后 单 击 OK 按钮 ,接着 单 击 PyDev 前 面 的 “十 ”, 展 开 PyDev 的 结 点 。 这 里 
要 等 一 小 段 时 间 , 让 它 从 网 上 获取 PyDev 的 相关 组 件 , 当 完成 后 会 多 出 PyDev 的 相 
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关 组 件 在 子 结 点 里 , 勾 选 它们 ,然后 单 击 Next 按钮 进行 安装 ,如 图 1. 14 所 示 。 


Available Software 


Check the itens that you vish te install. 


pydev ~ http://pydev. ore/ updates/ 


Find nore software by working with the ‘Arailabls Softwars Sites” preferences 


DD yar iy ET 


Devsils 


回 shov only the latezt versions of srsilabhle software ~ Dlide ites that wre slresdy instaled 
row itms by cetegory That is sresdr installsgy 
辐 Centeet ol wpiate sites during install to find reqaired softwere 


@ 


图 1.14 勾 选 相关 组 件 
安装 完成 后 重启 Eclipse 即 可 。 


3. 设置 PyDev 


在 安装 完成 后 还 需要 设置 一 下 PyDev, 选 择 Window 一 Preferences 命令 打开 


Preferences 对 话 框 来 设置 PyDev。 首 先 设 置 Python 的 路 径 , 在 PyDev 的 
Interpreter-Python 页 面 中 单 击 New 按钮 ,如 图 1. 15 所 示 。 


| Python interpreters 
Python interpreters (e.g: Python exe, Pypy exe}. Double cick to rerame 
> Help Nome 


) Edaor 
maeractive Console Pockages Bh Ubraries Foreed Bone predefned B Environment © Shing Subrtitvion Variables 
Interpreters Te 

ronpython terp 


Webs aayuninaal wh pp 
rasalyuninal with conda 
Log973 
fun 


Doed conde emv vars before mn? 
Seripting PyDev 


1.15 PyDev 的 设置 
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AD 
此 时 会 弹出 一 个 对 话 框 让 用 户 选 择 Python 的 安装 位 置 ,选择 自己 安装 Python 
的 所 在 位 置 ,如 图 1. 16 所 示 。 


Enter the nane snd erecutsble of yomr interpreter 


TInterpreter lene: [ 


TInterpreter Executable: [ 


The interpreter nene wust be specified 


图 1.16 PyDev 的 设置 完成 


完成 之 后 PyDev 就 设置 好 了 ,用户 可 以 开始 使 用 。 


4. 建立 Python Project 


在 安装 好 Eclipse 十 PyDev 以 后 ,用 户 就 可 以 开始 使 用 它 来 开发 项 目 了 。 首 先 要 
创建 一 个 项 目 ,选择 File->New-Pydev Project 命令 ,如 图 1. 17 所 示 。 


Ee levigwte Sesreh Project Prder Ba Yindor Help 


Open File, 


[ER 

Souree Falaer 

机 Fydev Package 

回 pyaev Nodule 

邓 Felder 

Brile 

恒 vatited Text File 


[Exple. 


司 


resh 加 other 
Conyert Line Deliniters To 


Cl 


Switeh gorkspace 
Bestart 


Inport 


图 1.17 选择 Pydev Project 命令 
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此 时 会 弹出 一 个 对 话 框 ,填写 项 目 名 称 以 及 项 目 保存 地 址 ,然后 单 击 Next 按钮 
完成 项 目的 创建 ,如 图 1. 18 所 示 。 


Pydev project 


Create a new Pydev Project, 


Broject name: [test 


Project contents 
Use defanlt 


Directory [EC Docments wd Se 


Project type 

Choose the project type 

OPyihon Orthen OIron Python 
Grammar Version 
2 


TInterpreter 


DP oe Files\Python thon sxe Ed 


回 craste default “sre’ folder and add it to the pythonpath? 


@ Ee 


图 1.18 填写 项 目 名 称 以 及 项 目 保存 地 址 


5. 创建 新 的 PyDev Module 


只 有 项 目 是 无 法 执行 的 ,接着 必须 创建 新 的 PyDev Module, 选 择 File> New 一 
Pydev Module 命令 ,如 图 1. 19 所 示 。 


四 riet。 Sewrch Project Fri Bm Tindo belp 
ET ee 


加 ouer celty 


Conpert Line Deliniters To 
Sviteh Yorkspuee 
Resturt 
ey Inport 
part 
Properties NttEnter 


上 hello.py [pythonl/sre] 
2 su py [D:/Develep/pythen/sre] 
3 -pydevpreject [python] 

4 project python] 


eit 


图 1.19 选择 Pydev Module 命令 
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OO 
在 弹出 的 对 话 框 中 填写 文件 存放 位 置 以 及 名 称 , 注 意 名 称 不 用 加 . py, 系统 会 自 
动 帮助 用 户 添 加 。 然 后 单 击 Finish 按钮 完成 创建 ,如 图 1. 20 所 示 。 


Eraate s new Python nodule 


Serce Folder [Tea 


Unittest with setlp snd tewrDors 


图 1.20 填写 文件 存放 位 置 以 及 名 称 
输入 代码 "hello world!" ,如 图 1. 21 所 示 。 
全 Pydev pythonl/src/hello.py Eclipse 


了 ile Edit Source Refactoring Ravigate Sesreh Project Pydev Bun Window Help 


i [国生 i 全 i 克 " O “人 四 用 其 "市" 中 外” 


6 printll"hel20 wor2a:™| 


图 1.21 输入 代码 


程序 写 完 后 可 以 执行 程序 ,在 上 方 的 工具 栏 中 单 击 用 于 执行 的 按钮 ,如 图 1. 22 
所 示 。 
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E Pydev — pythonl/src/test.py — Eclipse 
File Edit Source Refactorin 


igate Search Project Pydev Bun 时 
i 有 7 央 " 钢 "号 


6 print 图 "ae22o woria:")| 


1.22 ”执行 程序 


此 时 会 弹出 一 个 让 用 户 选择 执行 方式 的 对 话 框 , 通 常 选择 Python Run( 见 
图 1.23) ,开始 执行 程序 。 


Select a way to run test.p8 
Iron Python Run 

@ Iron Python unit-test 

EP Jython Run 

Jython wit-test 
Python Coverage 


Python unit-test 


Description 


Deseription not available 


@ 


图 1.23 选择 Python Run 


1.5 代码 风格 


下 面 介 绍 Python 的 代码 风格 。 


1. 缩 进 


空格 是 最 优先 的 缩 进 方式 ,每 级 缩 进 4 个 空格 ,连续 行 的 折 全 元 素 应 该 对 齐 。 
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# 与 起 始 定 界 符 对 齐 
foo = long function name(var one, var_ two, 
var_three, var four) 
# 使 用 更 多 的 缩 进 ,以 区 别 于 其 他 代码 
def long_function_name( 
var_one, var two, var_ three, 
var_four): 
print(var_one) 
# 悬挂 时 应 该 增加 一 级 缩 进 
foo = long_function_name( 
Var_one Var two, 
var_three, var four) 
# 悬 挂 不 一 定 要 4 个 空格 
foo = long_function name( 
Var_one, var_two, 


var_three, var four) 


值得 注意 的 是 ,两 个 字符 组 成 的 关键 字 ( 例 如 ip) ,加 上 一 个 空格 ,加 上 开 括 号 ,为 
后 面 的 多 行 条 件 创建 了 一 个 4 个 空格 的 缩 进 ,这 会 给 嵌入 if 内 的 缩 进 语句 产生 视觉 
冲突 ,因为 它们 也 被 缩 进 4 个 空格 。 


# 不 增加 额外 的 缩 进 
if (this_is_one thing and 
that_is_another thing): 
do_something() 
# 添加 一 行 注释 ,这 将 为 支持 语法 高 亮 的 编辑 器 提供 一 些 区 分 
if (this_is_one_thing and 
that_is_another thing): 
# 当 两 个 条 件 都 是 真 时 将 要 执行 
# 在 换行 的 条 件 语句 前 增加 额外 的 缩 进 


多 行 结构 中 的 结束 花 括 号 /中 括号 / 圆 括号 应 该 是 最 后 一 行 的 第 一 个 非 空白 字 
符 ,或 者 是 最 后 一 行 的 第 一 个 字符 。 


my_list=[ 
1, 2, 3, 
4, 5, 6, 
| 
result = some_ function that takes arguments( 
ar be 
et 
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2. 制 表 符 


Python 3 不 允许 混合 使 用 制 表 符 和 空格 来 缩 进 。 在 Python 2 的 代码 中 若 混合 
使 用 制 表 符 和 空格 的 缩 进 ,应 该 转化 为 完全 使 用 空格 。 在 调用 Python 命令 行 解释 器 
时 若 使 用 -选项 ,可 以 对 代码 中 不 合法 的 混合 制 表 符 和 空格 发 出 警告 (warnings); 使 
用 -tt 时 警告 (warnings) 将 变 成 错误 (errors) ,这 些 选项 是 被 高 度 推荐 的 。 


3. 最 大 行 长 度 


Python 采取 保守 做 法 ,要 求 行 限制 到 79 个 字符 (文档 字符 串 / 注 释 到 72 个 字 
符 )。 折 生长 行 的 首选 方法 是 使 用 Python 支持 的 圆 括号 方 括号 (brackets) 和 花 括 号 
(braces) 内 的 行 延续 。 长 行 可 以 在 表达 式 外 面 使 用 小 括号 来 变 成 多 行 。 连 续 行 使 用 
反 斜 本 更 好 。 例 如 ,长 的 多 行 的 with 语句 不 能 用 隐 式 续 行 ,可 以 用 反 斜 杠 : 

with open( '/path/to/some/file/you/want/to/read') as file_1:\ 


open( '/path/to/some/file/being/written', 'w') as file 2: 
file 2.write(file 1.read()) 


4. 换行 应 该 在 二 元 操作 符 前 面 还 是 后 面 


几 十 年 来 推荐 的 风格 是 在 二 元 操作 符 后 面 换行 ,但 这 会 在 两 方面 影响 可 读 
性 一 一 操作 符 往往 分 散在 屏幕 的 不 同 列 上 ,并 且 每 个 操作 符 都 远离 其 操作 数 。 
# 坏 的 : 操作 符 远离 它们 的 操作 数 
income = (gross_wages + 
taxable interest + 
(dividends - qualified dividends) 一 
ira_deduction 一 
student loan interest) 


为 了 解决 这 个 可 读 性 问题 ,数学 家 和 出 版 商 遵循 相反 的 约定 。Donald Knuth 在 
他 的 “计算 和 排版 ”系列 中 解释 了 传统 规则 :“ 虽 然 一 段 内 的 公式 总 是 在 二 进 制 操作 
和 关系 之 后 换行 ,但 在 二 进 制 操作 之 前 ,显示 的 公式 总 是 会 换行 ”。 

在 Python 代码 中 允许 打破 之 前 或 之 后 一 个 二 元 运算 符 的 规则 ,只 要 与 当前 惯例 
是 一 致 的 即 可 。 建 议 使 用 Knuth 的 风格 。 
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# 好 的 : 易于 匹配 操作 数 和 操作 符 
income = (gross_wages 
+ taxable_ interest 
+ (dividends — qualified dividends) 
— ira_deduction 
— student loan interest) 


# 二 元 运算 符 首选 的 换行 位 置 在 操作 符 后 面 
class Rectangle(Blob) : 
def init (self, width, height, 
color = 'black', emphasis = None, highlight = 0): 
if width==0 and height == 0 and 
color == 'red' and emphasis == 'strong' or 
highlight > 100): 
raise ValueError( "sorry, you lose") 
if width== 0 and height == 0 and (color == 'red' or 
emphasis is None): 
raise ValueError("I don't think so —— values are $%s, %s" % 
(width, height)) 
Blob.__init (self, width, height, 
color, emphasis, highlight) 


5. 空 行 


通常 用 两 个 空 行 分 割 顶层 函数 和 类 的 定义 ,类 内 方法 的 定义 用 单个 空 行 分 割 , 额 


外 的 空 行 可 以 被 用 于 分 割 一 组 相关 函数 (groups of related functions) ,在 一 组 相关 的 
单 句 中 间 可 以 省 略 空 行 (例如 一 组 旺 元 (Ca set of dummy implementations))。Python 
接受 换 页 符 作为 空格 ,Emacs( 和 一 些 打印 工具 ) 视 这 个 字符 为 页 面 分 割 符 , 因 此 在 文 
件 中 可 以 用 它们 为 相关 片段 (sections) 分 页 。 


6. 源 文件 编码 


Python 发 行 版 本 中 的 核心 代码 应 该 始终 使 用 UTF-8(Python 2 中 使 用 ASCID 。 


使 用 ASCIICPython 2 中 ) 或 UTF-8(Python 3 中 ) 的 文件 不 应 该 有 编码 声明 。 在 标准 
库 中 , 非 默认 编码 仅 用 于 测试 目的 ,和 否则 使 用 \x\\u\U 或 \N 是 将 非 ASCII 数据 包含 
在 字符 串 中 的 首选 方式 。 


Python 3 及 以 上 版 本 为 标准 库 规定 了 以 下 策略 : Python 标准 库 中 的 所 有 标识 符 


必须 使 用 ASCII 标识 符 , 并 且 尽 可 能 使 用 英文 单词 。 


另外 ,字符 串 和 注释 必须 使 用 ASCII, 唯 一 的 例外 是 测试 非 ASCII 功能 的 用 例 和 
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作者 名 ,名 称 不 是 基于 拉丁 字母 表 的 作者 必须 提供 这 个 字符 集中 他 们 名 字 的 音译 。 
开源 项 目 面向 全 球 ,鼓励 采用 统一 策略 。 


7. 导入 


import 文件 通常 被 放置 在 文件 的 首部 , 紧 跟 在 模块 注释 和 文档 字符 串 之 后 ,以 及 
模块 的 全 局 变量 和 常量 之 前 。 

import 文件 应 该 有 顺序 地 导入 以 下 库 : 

(1) 标准 库 。 

(2) 相关 的 第 三 方 库 。 

(3) 本 地 库 。 

用 户 应 该 在 每 组 导入 之 间 放 和 置 一 个 空 行 。 

通常 把 任何 相关 规范 放 在 导入 之 后 ,推荐 使 用 绝对 导入 ,因为 它们 更 易 读 ,并 且 
如 果 导 入 系统 的 配置 不 正确 (例如 包 中 的 一 个 目录 在 sys. path 的 最 后 ) ,它们 有 更 好 
的 表现 (或 者 至 少 给 出 更 好 的 错误 信息 ): 

import mypkg. sibling 


from mypkg import sibling 
from mypkg. sibling import example 


明确 的 相对 导入 可 以 被 用 来 代替 绝对 导入 ,特别 是 在 处 理 复杂 的 包 布 局 时 ,绝对 
导入 会 产生 不 必要 的 元 余 : 


from . import sibling 
from . sibling import example 


标准 库 代 码 应 该 避免 复杂 包 布 局 并 使 用 绝对 导入 。 隐 式 的 相对 导入 永远 不 应 该 
被 使 用 ,并 且 在 Python 3 中 已 经 移 除 。 
在 从 一 个 包含 类 的 模块 中 导入 类 时 ,下 面 通常 是 好 的 写法 : 


from myclass import MyClass 

from foo. bar. yourclass import YourClass 

# 如果 这 种 写法 导致 本 地 名 字 冲 突 ,那么 就 这 样 写 

import myclass 

import foo. bar. yourclass 

并 使 用 "myclass.MYClass" 和 "foo. bar. yourclass. YourClass" 来 访问 
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避免 使 用 通配符 导入 (from < 模块 名 > import * ) ,因为 这 样 不 清楚 哪些 名 字 出 现 
在 命名 空间 ,这 会 让 读者 和 许多 自动 化 工具 “困惑 ”。 


8. 字符 串 引号 


Python 中 单 引 号 字符 串 和 双 引 号 字符 串 是 一 样 的 , 当 一 个 字符 串 包含 单 引 号 字 
符 或 双 引 号 字符 时 ,使 用 另 一 种 字符 串 引 号 来 避免 字符 串 中 使 用 反 斜 杠 , 这 可 以 提高 
程序 的 可 读 性 。 

对 于 三 引号 字符 串 ,Python 三 引号 允许 一 个 字符 串 跨行 ,字符 串 中 可 以 包含 换 
行 符 、 制 表 符 以 及 其 他 特殊 字符 。 


9. 表达 式 和 语句 中 的 空格 


在 以 下 情况 应 避免 使 用 多 余 的 空格 : 避免 尾随 空格 ,因为 它 通常 是 无 形 的 ,可 能 
会 让 人 感到 很 困惑 ,例如 一 个 反 斜 杠 后 跟 一 个 空格 ,换行 符 不 会 被 视 为 行 延续 标记 。 
有 些 编辑 器 不 保留 它 , 并 且 许 多 项 目 ( 例 如 CPython 本 身 ) 都 预先 处 理 拒绝 它 的 钩子 。 

始终 在 这 些 二 元 运算 符 两 边 放 置 一 个 空格 : 赋值 (二 )、 比 较 ( Ves 
<>、< 一 .> 一 、in、not in、 is、 is not) ,布尔 运算 (and、or、not)。 

如 果 使 用 了 不 同 优先 级 的 操作 符 , 在 低 优先 级 操作 符 周围 增加 空格 (一 个 或 多 
个 )。 注 意 不 要 使 用 多 个 空格 ,在 二 元 运算 符 两 侧 添加 的 空格 数量 应 相等 。 


二 1 
submitted +=1 
X=x#2 一 1 
hypot2=xx*xx + yx*y 
c=(a+b) * (a-b) 
# 不 要 在 用 于 指定 关键 字 参 数 或 默认 参数 值 的 "= "号 周围 使 用 空格 
def complex(real, imag= 0.0): 
return magic(r = real, i= imag) 
# 函数 注释 应 该 对 冒号 使 用 正常 规则 ,并 且 如 果 存 在 ”- >” 两 边 应 该 有 空格 
def munge( input: RnyStr) : ... 
def munge() 一 > AnyStr: ... 
# 当 结合 一 个 参数 注释 和 默认 值 时 ,在 “ = ”符号 两 边 使 用 空格 (仅仅 当 那 些 参 数 同时 有 注释 和 一 
个 默认 值 时 ) 
def munge(sep: RnyStr = None): ... 
def munge( input: AnyStr, sep: hnyStr = None, limit = 1000): ... 
# 不 要 将 多 条 语句 写 在 同一 行 上 
证 foo== "blah': 
do_blah thing() 
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do_one() 

do_two() 

do three() 

# 尽 管 有 时 可 以 将 if/for/while 和 一 小 段 主体 代码 放 在 一 行 ,但 在 一 个 有 多 条 子 句 的 语句 中 不 
# 要 如 此 ,避免 折 等 长 行 

# 最 好 不 要 

if foo== 'blah': do_blah thing() 

for x in lst: total +=x 

while t < 10: t= delay() 


10. 注释 


注释 应 该 是 完整 的 句子 ,如 果 注 释 是 一 个 短语 或 句子 , 首 字母 应 该 大 写 , 除 非 它 
是 一 个 以 小 写字 母 开 头 的 标识 符 (永远 不 要 修改 标识 符 的 大 小 写 )。 

注释 块 通常 应 用 在 代码 前 ,并 和 这 些 代 码 有 着 同样 的 缩 进 。 注 释 块 中 的 每 行 以 
“ 井 ”和 一 个 空格 开始 (除非 它 是 注释 内 的 缩 进 文本 )。 注 释 块 内 的 段落 用 仅 包 含 单个 
“# ”的 行 分 割 。 

行内 注释 是 和 语句 在 同一 行 的 注释 ,行内 注释 应 该 至 少 用 两 个 空格 和 语句 分 开 。 
它们 应 该 以 “#” 和 单个 空格 开始 。 如 果 行 内 注释 所 述 是 显而易见 的 ,那么 它 就 是 不 
必要 的 。 

# 不 要 这 样 做 

x=x+1 # 增 加 x 


井 但 有 时 这 样 是 有 用 的 
x=x+1 井 补偿 border 


1.6 使 用 帮助 


1. Python Manuals 


自 带 CHM 格式 的 Python Manuals 存放 在 “\Python < x. x>\Doc\” 目 录 下 。 
用 户 可 以 在 IDLE 界面 下 按 Fl 键 或 单 击 Help 选项 下 的 Python Docs 标签 打开 ; 
也 可 以 通过 单 击 “开始 ”~Python x. x 一 Python Manuals 打开 。 


| 第 1 章 ”Python 简 介 @) 


2. Module Docs 


其 中 包含 了 Python 中 所 有 内 置 的 和 已 经 安装 的 第 三 方 Modules 文档 信息 。 

单 击 “开始 ”一 Python x. x 习 Module Docs, 出 现 pydoc 程序 界面 ,用 户 可 以 在 搜 
索 框 中 直接 查找 需要 的 内 容 。 

用 户 也 可 以 单 击 Open Browser 建立 本 地 临时 的 Web Server, 浏 览 网 页 版 的 文档 
信息 。 当 需要 关闭 时 , 单 击 “Quit Serving” 即 可 。 

利用 pydoc 手工 在 指定 端口 打开 Web Documentation Server, 代 码 为 "python -m 
pydoc -p 6789" (表示 打开 pydoc 模块 来 查看 Python 文档 ,并 在 6789 端口 上 启动 
Web Server) 。 

然后 访问 “http://localhost: 6789/”, 可 以 看 到 所 有 已 经 安装 的 Modules 文档 信 
息 。 当 需要 关闭 时 , 按 Ctrl 十 C 键 终 止 命令 或 者 关闭 命令 界面 即 可 。 

利用 pydoc 在 终端 下 查看 文档 信息 ,在 命令 行 中 执行 "python-m pydoc 函数 名 或 
模块 名 ”可 以 看 到 自动 生成 的 文档 信息 , 按 Q 键 退出 。 

例如 查看 os 模块 文档 ,代码 为 "python-m pydoc os"; 在 当前 目录 生成 dirO 〇 函数 
的 HTML 文档 ,代码 为 "python -m pydoc -w dir"。 

在 Linux 下 同样 适合 用 pydoc 方式 查看 文档 。 


3. helpC() 和 dir() 


1) 查看 对 象 信息 : help([object]) 

(1) 查看 所 有 的 keyword: help("keywords")。 

(2) 查看 所 有 的 modules: help("modules")。 

(3) 查看 常见 的 topics: help("topics")。 

(4) 查看 模块 : help("sys")。 

(5) 查看 数据 类 型 : help("list") 。 

(6) 查看 数据 类 型 的 成 员 方 法 : help("list. append")。 

对 于 已 定义 或 引入 的 对 象 ,help([object]) 查 询 不 使 用 单 引 号 和 双 引 号 ; 对 于 未 
引入 的 模块 等 对 象 ,要 使 用 单 引 号 或 双 引 号 。 

2) 查看 当前 属性 及 方法 : dir() 

查看 对 象 的 属性 及 方法 用 dir([object]) ,dir([object]) 查 询 不 使 用 单 引号 和 双 引 号 。 
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注意 ,help() 函 数 多 用 来 查看 对 象 的 详细 说 明 , 按 Q 键 退出 ; dir() 函 数 多 用 来 查 
看 对 象 的 属性 及 方法 ,输出 的 是 列表 。 
在 使 用 help() 和 dir() 之 前 要 确定 查询 的 对 象 已 被 定义 或 引入 ,否则 会 报错 , 例 


如 “NameError: name is not defined”。 
4. 官方 在 线 文档 
其 网 址 为 "www. python. org/doc”。 
5. Q&A 


*» SegmentFault; 


®。 Stack Overflow 。 
6. 搜索 与 请 教 


Google、 百 度 、 必 应 、 牛 人 等 。 
本 章 小 结 


本 章 主 要 介绍 了 Python 语言 发 展 的 历史 及 其 特点 ,然后 分 析 了 Python 2 与 
Python 3 不 同 的 编程 特点 ,最 后 以 Eclipse with PyDev 为 例 对 Python 的 环境 搭建 进 
行 了 展示 ,接着 对 Python 自 带 的 IDLE 界面 和 Python 的 各 种 开发 环境 进行 了 讲解 。 
读者 需要 熟练 掌握 Python 的 编程 特点 ,根据 自身 情况 选择 所 需要 的 IDLE, 并 熟练 地 
掌握 相对 应 的 Python 开发 工具 。 


习题 


1. 在 自己 的 计算 机 上 建立 一 个 Python 入 门 使 用 的 IDLE。 在 这 个 IDLE 里 , 创 
建 一 个 名 为 fruit 的 Python 文件 ,并 且 打 开 它 。 

2. 在 习题 1 建立 完成 的 Python 文件 中 ,编写 自己 的 第 一 个 print (“Hello 
Python”) 程 序 ,并 且 修 改 文件 名 为 HelloPython。 

3. 简要 阐述 Python 2 与 Python 3 的 区 别 。 


第 包间 


Python 语言 基础 知识 


本 章 学 习 目 标 : 


。 理解 变量 标识 符 的 含义 ,掌握 其 构造 和 使 用 
。 熟练 掌握 Python 中 数据 类 型 的 基本 运算 
。 熟练 掌握 Python 中 条 件 语句 的 运用 
本 章 先 向 读者 介绍 Python 中 最 基本 的 标识 符 与 变量 的 定义 ,并 通过 示例 向 读者 
展现 Python 语言 的 简单 编写 ,详细 地 介绍 数据 类 型 的 应 用 ; 接着 深入 讲解 条 件 语句 


的 类 别 、 各 自 的 作用 以 及 循环 语句 的 运用 ,最 后 通过 实例 展示 Python 在 实际 生活 中 
的 应 用 ,简单 地 介绍 Python 中 常用 的 函数 。 


2.1 标识 符 与 变量 
2.1.1 标识 符 

标识 符 (identifier) 是 用 来 标识 某 个 实体 的 一 个 符号 ,在 不 同 的 应 用 环境 下 有 不 
同 的 含义 。 


在 日 常生 活 中 ,标识 符 用 来 指定 某 个 东西 ` 人 ,要 用 到 它 、 他 或 她 的 名 字 ; 在 数学 
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中 解 方程 时 也 经 常用 到 这 样 或 那样 的 变量 名 或 函数 名 ; 在 编程 语言 中 ,标识 符 是 用 
户 编程 时 使 用 的 名 字 , 对 于 变量 、 常 量 、 函 数 、 语 句 块 也 有 名 字 。 

在 Python 里 ,标识 符 由 字母 ,数字 、 下 画 线 组 成 ,所 以 标识 符 可 以 包括 英文 .数字 
以 及 下 面 线 (_) ,但 不 能 以 数字 开头 。Python 中 的 标识 符 是 区 分 大 小 写 的 。 

另外 ,以 下 面 线 开头 的 标识 符 是 有 特殊 意义 的 : 以 单 下 画 线 开头 的 (_foo) 代 表 不 
能 直接 访问 的 类 属性 , 需 通 过 类 提供 的 接口 进行 访问 ,不 能 用 “from xxx import *” 
导入 ; 以 双 下 面 线 开 头 的 (__foo) 代 表 类 的 私有 成 员 ; 以 双 下 面 线 开头 和 结尾 的 
(__foo__) 代 表 Python 里 特殊 方法 专用 的 标识 ,例如 __init__O 〇 代表 类 的 构造 函数 。 


2.1.2 变量 
变量 来 源 于 数学 ,在 计算 机 语言 中 能 储存 计算 结果 或 能 表示 值 的 抽象 概念 。 变 


量 的 表现 形式 是 以 一 个 绑 定 该 变量 的 语句 开始 的 , 换 句 话说 ,变量 可 以 通过 变量 名 访 
问 。 在 Python 中 没有 变量 声明 ,下 面 通过 示例 来 具体 看 一 下 Python 中 变量 的 应 用 。 


1. 运行 hello world. py 时 发 生 的 情况 


在 运行 hello world. py 时 ,Python 都 做 了 些 什么 呢 ? 下 面 来 深入 研究 一 下 。 实 
际 上 ,即便 是 运行 简单 的 程序 ,Python 所 做 的 工作 也 相当 多 。 例 如 


print("hello world!") 


运行 上 述 代 码 ,用 户 将 看 到 如 下 输出 : 


hello world! 


在 运行 hello world. py 文件 时 ,末尾 的 . py 指出 这 是 一 个 Python 程序 ,因此 IDE 
将 使 用 Python 解释 器 来 运行 它 。Python 解释 器 读 取 整 个 程序 ,确定 其 中 每 个 单词 
的 含义 。 例 如 , 当 看 到 单词 print 时 ,解释 器 就 会 将 括号 中 的 内 容 打印 到 屏幕 ,而 不 管 
括号 中 的 内 容 是 什么 。 

在 编写 程序 时 ,编辑 器 会 以 各 种 方式 突出 显示 程序 的 不 同 部 分 。 例 如 ,编辑 器 知道 
print 是 一 个 函数 的 名 称 ,因此 将 其 显示 为 紫色 ; 知道 “hello world!" 不 是 Python 代码 ， 
因此 将 其 显示 为 绿色 。 这 种 功能 称 为 语法 突出 ,在 用 户 刚 开始 编写 程序 时 很 有 帮助 。 
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下 面 来 尝试 在 hello world. py 中 使 用 一 个 变量 。 在 这 个 文件 开头 添加 一 行 代 
码 ,并 对 第 2 行 代码 进行 修改 : 


message = "hello world!" 
print(message) 


运行 这 个 程序 ,看 看 结果 如 何 ? 用 户 会 发 现 ,输出 与 以 前 相同 : 


hello world! 


在 这 里 添加 了 一 个 名 为 message 的 变量 。 每 个 变量 都 存储 了 一 个 值 , 即 与 变量 
相关 联 的 信息 ,所 存储 的 值 为 文本 “hello world!”。 添 加 变量 导致 Python 解释 器 需 
要 做 更 多 的 工作 ,在 处 理 第 1 行 代码 时 , 它 将 文本 “hello world! "与 变量 message 关联 
起 来 ; 而 处 理 第 2 行 代码 时 , 它 将 与 变量 message 关联 的 值 打印 到 屏幕 。 

下 面 进一步 扩展 这 个 程序 : 修改 hello world. py, 使 其 再 打印 一 条 消息 。 为 此 ， 
在 hello world. py 中 添加 一 个 空 行 ,再 添加 下 面 两 行 代码 : 

message = "hello world!" 

print(message) 


message = "hello Python world!" 
print(message) 


现在 如 果 运 行 这 个 程序 ,将 看 到 两 行 输出 : 


hello world! 
hello Python world! 


在 程序 中 可 随时 修改 变量 的 值 ,而 Python 将 始终 记录 变量 的 最 新 值 。 
3. 变量 的 命名 


在 Python 中 使 用 变量 时 需要 遵守 一 些 规则 ,违反 这 些 规则 将 引发 错误 ,请 读者 
务必 牢记 下 列 有 关 变 量 的 规则 。 
(1) 变量 名 只 能 包含 字母 数字 和 下 画 线 。 变 量 名 可 以 以 字母 或 下 画 线 打 头 , 但 
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不 能 以 数字 打头 ,例如 可 以 将 变量 命名 为 name_1 ,但 不 能 将 其 命名 为 1 _name。 

(2) 变量 名 不 能 包含 空格 ,但 可 以 使 用 下 画 线 来 分 隔 其 中 的 单词 。 例 如 ,变量 名 
greeting_message 可 行 , 但 变量 名 greeting message 会 引发 错误 。 

(3) 不 要 将 Python 关键 字 和 函数 名 用 作 变 量 名 , 即 不 要 使 用 Python 保留 的 用 于 
特殊 用 途 的 单词 ,例如 print。 

(4) 变量 名 应 既 简短 又 具有 描述 性 。 例 如 ,name 比 n 好 ,student_name 比 s_n 
好 ,name_length 比 length_of_persons_name 好 。 另 外 , 慎 用 小 写字 母 1 和 大 写字 母 
O 〇 ,因为 它们 可 能 被 人 错 看 成 数字 1 和 0。 

如 果 想 创建 良好 的 变量 名 ,需要 经 过 一 定 的 实践 ,在 程序 复杂 时 尤其 如 此 。 随 着 
编写 的 程序 越 来 越 多 ,并 参考 阅读 别人 编写 的 代码 ,用户 将 越 来 越 善于 创建 有 意义 的 
变量 名 。 注 意 ,就 目前 而 言 ,应 使 用 小 写 的 Python 变量 名 。 在 变量 名 中 使 用 大 写字 
母 虽 然 不 会 导致 错误 ,但 避免 使 用 大 写字 母 是 个 不 错 的 选择 。 


4. 在 使 用 变量 时 避免 命名 错误 


程序 员 都 会 犯错 ,而 且 大 多 数 程序 员 每 天 都 会 犯错 。 优 秀 的 程序 员 也 会 犯错 ,但 
他 们 知道 如 何 高 效 地 消除 错误 。 下 面 来 看 一 种 读者 可 能 会 犯 的 错误 ,并 学 习 如 何 消 
除 它 。 这 里 将 有 意 地 编写 一 些 引 发 错误 的 代码 。 请 输入 下 面 的 代码 ,包括 其 中 拼写 
不 正确 的 单词 mesage: 


message = "hello world!" 
print(mesage) 


当 程 序 存 在 错误 时 ,Python 解释 器 将 竭尽 所 能 地 帮助 用 户 找 出 问题 所 在 。 当 程 
序 无 法 成 功 运行 时 ,解释 器 会 提供 一 个 traceback。traceback 是 一 条 记录 ,指出 了 解 
释 器 尝试 运行 代码 时 在 什么 地 方 陷入 了 困境 。 下 面 是 用 户 不 小 心 错 误 地 拼写 了 变量 
名 时 Python 解释 器 提供 的 traceback。 

Traceback < most recent call last >: 


File "< stdin>",line 1, in <module> 
NameError: name'mesage' is not defined 


解释 器 指出 它 发 现 的 是 什么 样 的 错误 ( 见 第 3 行 )。 在 这 里 解释 器 发 现 了 一 个 名 
称 错 误 ,并 指出 打印 的 变量 mesage 未 定义 ,Python 无 法 识别 用 户 提供 的 变量 名 。 名 
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称 错误 通常 意味 着 两 种 情况 ,即使 用 变量 前 忘记 给 它 赋值 ,以 及 输入 变量 名 时 拼写 不 
正确 。 

在 这 个 示例 中 ,第 2 行 的 变量 名 mesage 中 遗漏 了 字母 s。Python 解释 器 不 会 对 
代码 做 拼写 检查 ,但 要 求 变量 名 的 拼写 一 致 。 例 如 ,如 果 在 代码 的 另 一 个 地 方 也 将 
message 错误 地 拼写 成 了 mesage, 结 果 将 如 何 呢 ? 


mesage = "hello world!" 
print(mesage) 


在 这 种 情况 下 ,程序 将 成 功 运行 : 


mesage = "hello world!" 
Print(mesage) 
hello world! 


计算 机 虽然 “一丝不苟 ”, 但 不 关心 拼写 是 否 正 确 。 因 此 ,在 创建 变量 名 和 编写 代 


码 时 用 户 无 须 考虑 英语 中 的 拼写 和 语法 规则 。 其 实 ,很 多 编程 错误 都 很 简单 ,只 是 在 
程序 的 某 一 行 输 错 了 一 个 字符 。 


2.2 数据 类 型 及 运算 


Python 程序 的 运行 取决 于 该 程序 要 处 理 的 数据 。Python 中 的 所 有 数据 值 都 是 
对 象 , 并 且 每 个 对 象 或 者 值 都 有 一 个 类 型 (type)。 对 象 的 类 型 确定 了 该 对 象 支持 哪 
些 操作 ,也 就 是 确定 了 可 以 对 该 数据 值 执行 哪些 操作 。 另 外 ,类 型 还 确定 了 该 对 象 的 
属性 (attribute) 和 项 目 (item) ,以 及 该 对 象 是 否 可 以 被 改变 。 一 个 可 以 被 改变 的 对 象 
称 为 “可 变 对 象 ”"(mutable object), 而 不 可 以 被 改变 的 对 象 称 为 “不 可 变 对 象 ” 
(immutable object) 。 内 置 的 type(obj) 可 以 接受 任何 对 象 作 为 参数 ,并 返回 obj 类 型 
的 对 象 。 如 果 对 象 obj 具有 类 型 type( 或 者 其 任何 子 类 ), 则 内 管 函 数 isinstance(obj， 
type) 将 返回 True, 否 则 该 函数 将 返回 False。 

对 于 一 些 基 本 数据 类 型 ,比如 数字 、 字 符 串 元 组 ,列表 和 字典 ,Python 都 有 内 置 
类 型 ,用 户 可 以 使 用 type() 函数 来 确定 Python 给 一 个 变量 分 配 了 什么 数据 类 型 。 在 
下 面 的 示例 中 ,读者 可 以 看 到 两 个 变量 分 配 了 不 同 的 数据 类 型 。 
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>>> coffee cup= "coffee" 


>>> type(coffee cup) 
<class 'str> 


>>> cups_consumed = 2 
>>> type(cups_consumed) 
<class 'int> 


Python 给 coffee_cup 分 配 了 数据 类 型 str( 字 符 串 或 字符 串 常量 ) ,因为 它 看 到 了 
引号 括 起 来 的 一 个 字符 串 。 然 而 ,对 于 变量 cups_consumed, Python 看 到 了 一 个 整 
数 ,因此 给 它 分 配 了 数据 类 型 int( 整 数 ) 。 

下 面 主要 介绍 数字 类 型 数据 ,对 于 其 他 类 型 数据 将 在 后 面 的 章节 中 进行 介绍 。 
程序 开发 者 还 可 以 创建 用 户 自 定义 类 型 ,这 些 类 型 也 被 称 为 类 (class)。 

Python 支持 3 种 不 同 的 数值 类 型 , 即 整数 (int) 、 浮 点 数 (float) 、 复 数 (complex)。 


2.2.1 数据 类 型 


Python 中 的 内 置 数字 对 象 支持 整数 (普通 整 型 和 长 整 型 、 浮 点 型 秋明 要 交 
数字 和 复数 。Python 中 的 所 有 数字 都 是 不 可 变 对 象 ,这 意味 着 在 对 一 视频 讲解 
个 数字 对 象 执行 任何 操作 时 总 是 会 产生 一 个 新 的 数字 对 象 。 

注意 ,数字 常量 不 包含 十 或 一 ,如 果 包 含 这 两 个 符号 , 则 表示 该 符号 是 一 个 分 隔 
运算 符 。 


1. 整数 型 


在 Python 中 整数 常量 可 以 是 十 进 制 、 八 进 制 或 十 六 进 制 。 十 进 制 常 量 可 以 由 第 
一 个 数字 为 非 零 数字 的 数字 序列 表示 。 为 了 表示 八进制 常量 ,可 以 在 0 后 面 带 一 个 
八进制 数字 (0 一 7) 序 列 。 为 了 表示 十 六 进 制 常量 ,可 以 在 0x 后 面 带 一 个 十 六 进 制 数 
字 序 列 (0 一 9 和 A 一 下 ,可 以 使 用 大 写 或 小 写字 母 )。 与 C 语言 中 所 指 的 整 型 规则 
相同 。 

实际 上 ,开发 者 不 需要 担心 普通 整 型 和 长 整 型 之 间 的 区 别 , 因 为 在 需要 的 时 候 对 
普通 整 型 的 操作 将 生成 长 整 型 结果 (也 就 是 说 ,在 运算 结果 超出 普通 整 型 结果 的 数值 
范围 时 )。 不 过 ,开发 者 可 以 选择 将 字母 L( 或 1) 放 在 任何 类 型 的 整数 的 后 面 ,以 明确 
地 表示 该 整数 是 长 整 型 。 
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长 整 型 没有 预定 义 的 大 小 限制 ,只 要 内 存 允 许 , 长 整 型 可 以 无 限 大 。 另 外 ,普通 
整 型 只 占用 了 几 字 节 的 内 存 ,并 且 其 最 小 和 最 大 值 是 由 计算 的 架构 决定 的 。 
sys. maxint 是 可 以 使 用 的 最 大 正 整 数 ,-sys. maxint-1 是 可 以 使 用 的 最 大 负 整 数 。 在 
32 位 计算 机 上 ,sys. maxint 是 2147483647。 


2. 浮 点 数 


Python 将 带 小 数 点 的 数字 都 称 为 浮 点 数 。 大 多 数 编程 语言 都 使 用 了 这 个 术 
语 , 它 指出 这 样 一 个 事实 : 小 数 点 可 出 现在 数字 的 任何 位 置 。 每 种 编程 语言 都 要 
细心 设计 ,以 妥善 地 处 理 浮 点 数 ,确保 不 管 小 数 点 出 现在 什么 位 置 ,数字 的 行为 都 
是 正常 的 。 

从 很 大 程度 上 说 ,在 使 用 浮 点 数 时 都 无 须 考虑 其 行为 。 用 户 只 需 输入 要 使 用 的 
数字 ,Python 通常 都 会 按 用 户 期 望 的 方式 处 理 它 们 。 


3. 复数 


复数 是 由 两 个 浮 点 值 组 成 的 ,一 个 是 实 部 ,一 个 是 虚 部 ,可 以 理解 为 数学 中 的 无 
理 数 。 开 发 者 可 以 通过 只 读 属性 z. real 和 z. imag 访问 复数 对 象 z 的 两 个 部 分 。 

开发 者 可 以 将 一 个 虚数 字面 常量 指定 为 一 个 浮 点 或 十 进 制 字 面 常 量 ,后 面 跟 一 
个 j 或 J, 例 如 : 

0j、0.j、0.0j、1Lj、1.j、1.0j、le0ji、1.e0i 

其 末尾 的 j 表示 一 1 的 平方 根 。 复 数 通 常 在 电气 工程 中 使 用 ,在 有 些 其 他 语言 中 
使 用 i 来 表示 ,但 Python 选择 使 用 j。 若 想 表 示 任 何 复数 常数 ,可 以 使 用 一 个 浮 点 数 
(或 整数 ) 加 上 或 减 去 一 个 虚数 。 例 如 要 想 表 示 数 字 1 的 复数 ,可 以 使 用 表达 式 1 十 0j 
或 者 1.0 十 0. 0j。 


2.2.2 运算 符 和 表达 式 


村 
表达 式 (expression) 是 一 个 代码 语句 ,Python 将 计算 这 段 表 达 式 产 Co 

生 一 个 结果 。 在 表 2. 1 中 列 出 了 常见 的 运算 符 , 其 中 运算 符 按 优先 级 递 

减 的 顺序 排列 ,高 优先 级 在 前 , 低 优先 级 在 后 , 列 在 一 起 的 运算 符 具 有 相同 的 优先 级 。 

表 2.1 中 的 第 3 列 给 出 了 运算 符 的 结合 规则 , 即 L( 从 左 到 右 )、R( 从 右 到 左 ) 或 NA 

(无 结合 规则 ) 。 
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表 2.1 运算 符 的 结合 规则 


运 算 符 说 明 结合 规则 
"expry..。 字符 串 转 换 NA 
{key: expr,...} 创建 字典 NA 
[expr,...] 创建 列表 NA 
(expr,...) 创建 元 组 或 圆 括 号 NA 
f(expr,...) 函数 调用 
x[index: index] 切片 
x[index] 索引 
x. attr 属性 应 用 
Cbd 睾 (x 的 y 次 短 ) 
ik 按 位 非 
村 二 一 于 一 元 正和 负 
X#x y\X/Y、X//Y、x%y 乘除 法 .截断 除法 , 求 余 L 
x+y.x—y 加 减法 L 
x<<y'x>>y 左 移 位 、 右 移 位 L 
x&y 按 位 与 L 
xy 按 位 异 或 L 
xly 按 位 或 EE 
XxX<yx<=y.x>y.x>=y.x<>y.x!=y.x==y 比较 大 小 NA 
xisy,xisnoty 同一 性 测试 NA 
xiny,xnotiny 成 员 测 试 NA 
not x 布尔 “ 非 ” NA 
xandy 布尔 “与 b 
xory 布尔 “或 ” L 
Lambda arg,...expr 匿名 简单 函数 NA 


注意 : <>、! 二 是 “不 等 于 ”运算 符 的 两 种 表现 形式 。 

在 表 2. 1 中 ,expr、key,f、index、x 和 y 表示 任意 表达 式 , 而 attr 和 arg 表示 任何 
标识 符 。 除 了 字符 串 转 换 之 外 ,符号 *...” 表 示 使 用 逗号 分 隔 的 零 个 或 多 个 重复 表达 
式 ,字符 串 转换 需要 一 个 或 多 个 重复 表达 式 。 除 了 字符 串 转换 运算 符 之 外 ,在 所 有 运 
算 符 中 , 拖 尾 逗号 允许 使 用 且 没 有 危害 ,在 字符 串 运 算 符 中 禁止 使 用 拖 尾 逗号 。 

下 面 以 在 Python 中 对 整数 执行 简单 的 加 (十 )` 减 (一 ) 乘 (* )、 除 (/) 运 算 为 例 
进行 介绍 : 

>>> 1+1 


2 
>>9-8 
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在 终端 会 话 中 ,Python 直接 返回 运算 结果 。 
Python 使 用 两 个 乘 号 表示 乘 方 运算 : 


Python 还 支持 运算 次 序 , 因 此 用 户 可 以 在 同一 个 表达 式 中 使 用 多 种 运算 。 
用 户 还 可 以 使 用 括号 来 修改 运算 次 序 ,让 Python 按 自 己 指定 的 次 序 执行 运 
算 , 例 如 : 


在 这 些 示 例 中 ,空格 不 影响 Python 计算 表达 式 的 方式 ,它们 的 存在 旨 在 让 机 器 
阅读 代码 时 能 迅速 确定 先 执行 哪些 运算 。 
浮 点 型 数据 的 运算 与 整数 类 似 , 例 如 : 


需要 注意 的 是 ,结果 包含 的 小 数位 数 可 能 是 不 确定 的 (例如 0. 6/0. 4)。 所 有 语言 
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都 存在 这 种 问题 ,用 户 没 有 什么 可 担心 的 。Python 会 尽力 找到 一 种 方式 来 尽 可 能 精 
确 地 表示 结果 ,但 鉴于 计算 机 内 部 表示 数字 的 方式 ,这 在 有 些 情 况 下 很 难 。 就 现在 而 
言 ,暂时 忽略 多 余 的 小 数位 数 即 可 。 

在 Python 中 , 当 整 型 (int) 与 浮 点 型 (float) 做 运算 时 ,结果 默认 是 浮 点 型 ,例如 : 


>>> 5/2.0 
2,5 


在 Python 中 有 3 个 布尔 运算 符 , 即 and、or 和 not。 

布尔 运算 也 叫 罗 辑 运算 , 它 的 运算 结果 只 有 两 个 值 , 即 真 CTrue) 和 假 (False) 。 
一 个 布尔 表达 式 也 只 有 一 个 逻辑 结果 ,要 么 为 True, 要 么 为 False。 例 如 1<2 这 样 一 
个 表达 式 , 它 的 结果 就 是 True, 而 3 十 1 > 5 这 样 一 个 表达 式 , 它 的 结果 就 是 False。 

and 也 被 称 为 “与 ”运算 ,该 运算 符 连接 左 、 右 两 个 布尔 表达 式 , 即 x and y。 若 x 
和 y 都 为 True, 则 and 运算 的 结果 为 True; 否则 ,只 要 x 和 y 中 至 少 有 一 个 为 False， 
整个 and 运算 的 结果 就 为 False。 

or 也 被 称 为 “或 ”运算 ,该 运算 符 连 接 左 、 右 两 个 布尔 表达 式 , 即 x or y。 若 x 和 y 
都 为 False, 则 or 运算 的 结果 为 False; 否则 ,只 要 x 和 y 中 至 少 有 一 个 为 True, 整 个 
or 运算 的 结果 就 为 True。 

not 也 被 称 为 “ 非 ” 运 算 , 该 运算 符 作 用 于 一 个 布尔 表达 式 , 即 not x。 若 x 为 
True, 则 not 运算 的 结果 为 False; 若 x 为 False, 则 not 运算 的 结果 为 True。 


例如 : 

>>> (5>3) and (3+4==7) # 左 、 右 两 边 都 为 True,and 运算 的 结果 为 True 
0 and (3+4==7) # 左边 为 False, 右边 为 True,and 运算 的 结果 为 False 
ee or (3+4==7) 上 左边 为 False, 右边 为 True, or 运算 的 结果 为 True 
ee or (4+2==7) # 左 、 右 两 边 都 为 False,or 运算 的 结果 为 False 
A (5<3) # 右边 为 False, not 运算 的 结果 为 True 

True 


布尔 表达 式 在 本 章 后 面 所 介绍 的 分 支 结构 控制 语句 和 循环 语句 中 特别 有 用 ,请 
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2.3 ”分支 结构 控制 语句 


nl 


说 到 分 支 结构 控制 语句 ,似乎 所 有 的 编程 语言 都 有 类 似 的 语句 。 条 。 视频 讲解 
件 判断 ` 有 限 循环 ,无 限 循环 语句 ,这 几 个 语句 是 最 基本 的 ,也 是 必 不 可 少 的 。 


2.3.1 让 语句 
最 基本 的 分 支 结 构 语 句 就 是 让 语句 了 ,在 Python 中 这 语 句 具有 如 下 基本 格式 : 
if condition: statement 


如 果 用 户 曾经 在 其 他 编程 语言 中 使 用 过 if 语句 ,这 个 格式 可 能 看 起 来 有 些 奇怪 ， 
因为 语句 中 没有 “then” 这 个 关键 字 。 其 实在 Python 中 “:” 就 起 到 了 “then” 的 作用 。 
机 器 会 对 括号 内 的 条 件 进行 求 值 判断 ,车 返回 True 则 执行 冒号 后 的 内 容 , 若 返回 
False 则 跳 过 冒号 后 的 语句 。 

下 面 通过 一 些 例子 来 展示 如 何 使 用 if 语句。 假设 有 一 个 表示 某 人 年 龄 的 变量 ， 
若 想 知道 这 个 人 是 否 为 能 够 驾驶 汽车 的 年 龄 ,可 使 用 如 下 代码 : 

age=19 


if age>= 18: 
print("You are old enough to drive") 


注意 ,在 print 前 面 要 有 空格 ,否则 在 运行 过 程 中 会 出 现 错误 。 例 如 : 


>>> age= 19 
>>> if age>=18: 
print("You are old enough to drive") 
File"< stdin>", line 2 
print("You are old enough to drive") 


~ 


IndentationError: expected an indented block 


在 让 语句 中 , 缩 进 的 作用 与 for 循环 中 相同 。 如 果 测 试 通过 了 ,将 执行 这 语句 后 
面 所 有 缩 进 的 代码 行 , 否 则 将 忽略 它们 。 当 语句 正确 无 误 时 运行 语句 ,可 以 看 到 在 第 
2 行 Python 检查 变量 age 的 值 是 否 大 于 或 等 于 18。 答 案 是 肯定 的 ,因此 Python 执行 
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You are old enough to drive 


在 紧 跟 在 计 语 名 后面 的 代码 块 中 ,可 根据 需要 包含 任意 数量 的 代码 行 。 例 如 下 
面 在 一 个 人 够 驾驶 汽车 的 年 龄 时 再 打印 一 行 输出 , 问 他 是 否 拥有 驾驶 证 : 

>>> age = 19 

>>> if age >= 18: 


print("You are old enough to drive! ") 
print("Have you a drive license?") 


条 件 测试 通过 了 ,而 两 条 print 语句 都 缩 进 了 ,因此 它们 都 将 执行 : 


You are old enough to drive! 
Have you a drive license? 


如 果 age 的 值 小 于 18, 这 个 程序 将 不 会 有 任何 输出 。 
2.3.2 if-else 语句 


在 让 语 句 中 ,如 果 条 件 返 回 False,Python 将 会 移动 到 下 一 条 语句 中 。 如 果 和 希望 
在 返回 False 时 可 以 执行 男 一 组 语句 ,那么 就 需要 用 到 条 件 语 句 了 。 似 乎 所 有 的 条 件 
语句 都 使 用 if-else。 它 的 作用 可 以 简单 地 概括 为 “ 非 此 即 彼 ”"。 当 满足 条 件 时 执行 A 
语句 ,否则 执行 B 语句。 下 面 看 一 下 Python 中 if-else 的 具体 应 用 : 
>>> age = 20 
>>> if age> 18: 
print("You are an adult") 


else: 
print("You are underage") 


You are an adult 
在 使 用 if-else 语句 的 过 程 中 需要 注意 如 何 放 置 else 的 位 置 , 如 果 else 缩 进 了 ,就 
会 发 生 错误 : 


age=20 
if age> 18: 
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print("You are an adult") 
else: 
File"< stdin>", line 3 
else: 
a 
SyntaxError: invalid syntax 
>>> 


2.3.3 if-elif-else 语句 


到 目前 为 止 ,大 家 学 习 了 如 何 使 用 计 或 让 else 控制 语句 ,这 使 得 用 户 对 程序 的 控 
制 具有 更 多 的 灵活 性 。 其 实 这 种 语句 还 有 很 多 。 比 如 当 需 要 将 一 个 值 与 多 个 范围 的 
条 件 进行 比较 时 ,使 用 Python 提供 的 if-elif-else 结构 。Python 只 执行 if-elif-else 结 
构 中 的 一 个 代码 块 , 它 依次 检查 每 个 条 件 测试 ,在 测试 通过 后 ,Python 将 执行 紧 跟 在 
它 后 面 的 代码 ,并 跳 过 余下 的 测试 。 例 如 : 


>>> age = 41 
>>> if age<18: 

print("You are underage.") 
elif 18<=age<40: 

print("You are a young man.") 
elif 40<= age<60: 

print("You are middle-aged. ") 
else: 

print("You are an old man. ") 


You are middle-aged. 


Python 并 不 要 求 if-elif 结构 后 面 必须 有 else 代码 块 。 在 有 些 情况 下 ,else 代码 
块 很 有 用 ; 而 在 其 他 一 些 情况 下 ,使 用 一 条 elif 语句 来 处 理 特定 的 情形 更 清晰 ,例如 : 


>>>age = 20 
>>> if age<18: 
print("You are underage.") 
elif 18<=age<40: 
print("You are a young man.") 
elif 40<= age<60: 
print("You are middle-aged.") 
else: 
print("You are an old man. ") 


You are a young man. 
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else 是 一 条 包罗 万 象 的 语句 ,只 要 不 满足 任何 ff 或 elif 中 的 条 件 测 试 ,其 中 的 代 
码 就 会 执行 ,这 可 能 会 引入 无 效 甚至 恶意 的 数据 。 如 果 用 户 知道 最 终 要 测试 的 条 件 ， 
应 考虑 使 用 一 个 elif 代码 块 来 代替 else 代码 块 。 这 样 ,用 户 就 可 以 青 定 , 仅 当 满足 相 
应 的 条 件 时 自己 的 代码 才 会 执行 。 


2.4 循环 语句 


2.4.1 循环 结构 控制 语句 


在 编程 过 程 中 ,大 家 总 会 遇 到 需要 把 某 个 过 程 重复 N 次 的 情况 ,这 
个 时 候 就 要 使 用 到 循环 语句 来 完成 语句 或 函数 等 任务 的 重复 执行 。 


1. while 语句 


在 Python 中 ,while 循环 语句 是 “条 件 控制 的 ?循环 , 即 无 限 循环 ,只 要 不 满足 某 
种 条 件 ,任务 就 会 一 直 执行 ,直到 满足 条 件 。 例 如 : 


>>> number = 1 

>>> while number<=10: 
print(number) 
number = number + 1 


Pooaowaoumewbrn : 


口 


在 这 个 示例 中 ,while 语句 会 先 检 查 测试 条 件 变 量 number 的 值 , 只 要 该 变量 的 值 
小 于 或 等 于 10,Python 语句 就 会 执行 。 在 第 4 行 中 ,while 循环 的 最 后 一 条 语句 会 将 
变量 的 值 加 1。 因 此 , 当 number 等 于 11 时 ,while 的 测试 语句 返回 False, 这 样 一 个 循 
环 就 终止 了 。 
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2. for 语句 


在 Python 中 ,for 循环 结构 称 为 “计数 控制 ?循环 , 即 有 限 循环 。 在 循环 任务 中 
会 出 现 需要 执行 一 定 次 数 的 情况 ,这 个 时 候 可 以 使 用 for 循环 来 完成 这 个 任务 。 
例如 : 

>>> numbers = [0,1,2,3,4,5,6,7,8,9] 


>>> for number in numbers: 
print(number) 


oovwvoaourwbrhoeo : 


2.4.2 循环 诗 套 控制 语句 


循环 谋 套 是 在 一 个 循环 语句 中 嵌入 另 一 个 循环 语句 。 例 如 ,位 于 循 
环 代码 块 中 的 一 个 for 循环 就 是 循环 谋 套 。 


2.4.3 break 语句 和 continue 语句 


通常 ,循环 会 不 断 地 执行 代码 块 ,直到 条 件 不 满足 时 才 会 停止 。 但 在 有 些 情况 
下 ,用 户 可 能 想 中 断 循环 ,开始 进入 “下 一 轮 ” 代 码 块 执行 流程 或 直接 结束 循环 。 

要 想 结束 或 跳出 循环 ,可 以 使 用 break 语句 。break 语句 用 于 控制 程序 流程 ,可 
以 使 用 它 来 控制 哪些 代码 行将 执行 ,哪些 代码 行 不 执行 ,从 而 让 程序 按 用 户 的 要 求 执 
行 用 户 要 执行 的 代码 。 例 如 从 1 到 10, 但 只 打印 其 中 与 3 乘积 小 于 10 的 数 : 


>>> number= 0 
>>> while number<10: 
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number +=1 

if number * 3>= 10: 
break 

print(number) 


首先 将 number 设置 成 0, 由 于 它 小 于 10,Python 进入 while 循环 。 进 入 循环 后 ， 
以 步 长 为 1 的 方式 往 上 数 ( 见 第 3 行 ), 因 此 number 为 1。 接 下 来 让 语 句 检 查 number 
与 3 的 求 积 运 算 结 果 , 如 果 结 果 小 于 10, 就 让 Python 执行 余下 的 代码 ,将 结果 打印 出 
来 ; 如 果 结果 大 于 或 等 于 10, 就 执行 break 语句 ,中 断 循环 。 


\N\ 


如 果 要 返回 到 循环 开头 ,并 根据 条 件 测试 结果 决定 是 否 继续 执行 循环 ,可 以 使 用 
continue 语句 , 它 不 像 break 语句 那样 ,不 再 执行 余下 的 代码 并 退出 整个 循环 。 例 如 
来 看 一 个 从 1 到 10, 但 只 打印 其 中 偶数 的 循环 : 


>>> number= 0 
>>> while number < 10: 
number += 1 
if number % 2== 0: 
continue 
print(number) 


首先 将 number 设置 成 了 0, 由 于 它 小 于 10,Python 进入 while 循环 。 进 入 循环 
后 ,以 步 长 为 1 的 方式 往 上 数 ( 见 第 3 行 ), 因 此 number 为 1。 接 下 来 语句 检查 
number 与 2 的 求 模 运 算 结果 ,如 果 结 果 为 0( 意 味 着 number 可 以 被 2 整除 ) ,就 执行 
continue 语句 ,让 Python 忽略 余下 的 代码 ,并 返回 到 循环 的 开头 ; 如 果 当 前 的 数字 不 
能 被 2 整除 ,就 执行 循环 中 余下 的 代码 ,Python 将 这 个 数字 打印 出 来 : 


口 wou wm 
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2.4.4 range() 困 数 


Python 内 置 的 range() 函 数 可 以 迭代 地 生成 一 组 数字 序列 ,这 个 功能 在 循环 语 
句 中 特别 有 用 ,尤其 是 跟 需要 计数 的 for 循环 语句 搭配 使 用 可 以 大 大 降低 代码 量 。 例 
如 打印 0 一 9 这 10 个 数字 ,需要 首先 创建 一 个 包含 0 一 9 这 10 个 数字 的 数组 ,而 通过 
range() 函数 能 够 更 加 轻易 地 实现 该 功能 : 


>>> for number in range(10) : 
print(number) 


oovwvoumewbho: : 


如 果 range() 函数 只 有 一 个 参数 ,那么 参数 表示 数列 的 结束 数字 (小 于 该 参数 的 
最 大 数字 ) , 且 默 认 数 字 从 0 开始 ,例如 输入 参数 5, 则 生成 从 0 开始 直到 小 于 5 的 最 
大 数字 (也 就 是 4) 的 数列 , 即 “0 1 2 3 4”"。 如 果 为 range() 函 数 传 人 两 个 参数 , 则 第 1 
个 参数 表示 起 始 数字 ,第 2 个 参数 表示 结束 数字 (小 于 该 参数 的 最 大 数字 ) ,例如 
range(5，10) 生 成 从 5 开始 直到 小 于 10 的 最 大 数字 (也 就 是 9) 的 数列 , 即 “5678 
9”。 如 果 为 range() 函数 传人 了 第 3 个 参数 , 则 第 3 个 参数 表示 步 长 , 即 每 隔 多 少 
取 一 个 数字 ,例如 range(0,10,3) 表 示 从 0 开始 直到 9 每 隔 3 取 一 个 数字 组 成 的 数 
列 , 即 "0369”。 

len() 函 数 用 于 获取 一 个 数组 的 长 度 , 如 果 将 range() 函 数 与 len() 郴 数 相 结合 ， 
那么 就 可 以 实现 遍历 数组 的 功能 : 

RCR ee a | 


>>> for i in range(len(arr)): 
print(i,arr[i]) 
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2.5 常见 的 Python 函数 


CC++ ,Java、Ruby、Perl、Lisp 等 众多 编程 语言 的 程序 都 是 由 函数 和 类 组 成 的 ， 
当然 Python 程序 中 包含 的 不 是 函数 就 是 类 。 

函数 犹如 小 型 程序 ,可 用 来 执行 特定 的 操作 。Python 提供 了 很 多 函数 ,可 用 来 
完成 很 多 神奇 的 任务 。 用 户 也 可 以 自己 编写 函数 (这 将 在 后 面 更 详细 地 介绍 )。 前 面 
用 的 print() 就 是 一 个 函数 。 再 比如 ,在 学 习 运 算 符 和 表达 式 的 时 候 曾 用 到 *x 表示 
乘 方 运算 ,实际 上 可 以 不 使 用 这 个 运算 符 ,而 使 用 pow() 函 数 。 

>>> 2#x 3 

8 


>>> pow(2,3) 
8 


这 里 的 pow 〇 就 是 Python 中 的 一 个 标准 函数 ,也 称 为 内 置 函数 。 使 用 这 种 形式 
的 函数 称 为 调用 函数 用 户 向 它 提供 实 参 ( 即 实际 传 给 函数 的 参数 ,这 里 是 2 和 3)， 
而 它 返回 一 个 值 。 鉴 于 函数 调用 返回 一 个 值 , 因 此 它们 也 是 一 个 表达 式 。 

本 节 将 会 通过 示例 的 方法 介绍 几 种 在 Python 中 常用 的 函数 。 


1. print() 函数 


本 节 之 前 的 代码 实际 上 已 经 多 次 用 到 了 print() 函数 ,这 里 专门 对 其 用 法 进行 介 
绍 。print() 函 数 主要 用 于 打印 输出 ,这 在 任何 编程 语言 中 都 是 最 基本 的 功能 。 需 要 
注意 的 是 ,print() 只 有 在 Python 3 中 才 是 一 个 函数 ,在 Python 2 中 并 不 是 函数 ,这 就 
意味 着 在 Python 2 中 print 后 面 不 需要 括号 。 本 书 均 以 Python 3 为 例 进行 编写 , 因 
此 读者 会 发 现 本 书 代码 中 print 的 后 面 总 是 带 着 括号 ,而 其 参数 都 写 在 括号 中 。 

print() 函数 的 第 1 个 参数 是 期 望 打印 的 数据 , 它 可 以 是 字符 串 、 数 值 . 布 尔 ` 列 
表 、 字 典 等 任何 类 型 或 其 变量 。 下 列 代码 显示 了 使 用 print() 函数 输 出 各 个 类 型 数据 
的 结果 : 


22>X=12 

>>> print(x) ”# 打 印 数值 变量 
12 

>>> s = ' python' 

>>> print(s) ”# 打 印字 符 串 变量 
python 

>>>L=[1,2,3] 

>>> print(L)  # 打 印 列 表 变量 


>>> print(t)  # 打 印 元 组 变量 
Vn. “br 

>>> b= True 

>>> print(b)  # 打 印 布尔 变量 
True 

>>d={'a': 1, 'b' :2} 

>>> print(d) ”# 打 印字 典 变量 
2 
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可 以 看 到 ,无 论 是 何 种 数据 类 型 ,print() 函数 都 有 办 法 以 最 合适 的 方式 进行 输 
出 。 关 于 列表 字典 等 数据 结构 的 相关 内 容 ,请 读者 参考 本 书 第 3 章 。 

在 print() 函数 中 有 两 个 重要 的 参数 , 即 sep 和 end。 这 两 个 参数 可 以 让 用 户 在 
输出 时 自 定义 间隔 符 和 结束 符 。 这 里 用 下 面 的 代码 来 说 明 这 两 个 功能 : 


>>> print("hello", "world", "and", "python") 
hello world and python 


>>> print("hello", "world", "and", "python", sep =", ") 


hello, world, and, python 


>>> print("hello", "world", "and", "python", end= ".") 


hello world and python. >>> 


从 上 述 代 码 中 可 以 看 到 ,在 不 使 用 sep 和 end 参数 的 情况 下 , 当 打 印 一 连 串 字符 
串 时 ,print() 函 数 默 认 使 用 一 个 空格 作为 每 个 字符 串 之 间 的 间隔 符 ,并 且 在 最 后 一 个 
字符 串 的 结尾 使 用 了 一 个 回 车 符 作为 结束 符 ( 虽 然 该 回 车 符 看 不 见 , 但 是 用 户 可 以 发 
现下 面 的 3 个 右 箭头 符号 ">>>” 另 起 了 一 行 )。 上 述 代码 的 第 3 行 修改 了 sep 参数 ， 
将 其 设 为 逗号 加 空格 ,第 4 行 显示 了 最 终结 果 , 可 以 看 到 每 个 字符 串 之 间 改 为 使 用 去 
号 加 空格 进行 间隔 。 上 述 代码 的 第 5 行 修改 了 end 参数 ,将 其 设 为 句点 符号 ,第 6 行 
显示 了 最 终结 果 , 可 以 看 到 打印 的 最 后 使 用 了 句点 作为 结尾 。 尤 其 需要 注意 的 是 ,由 
于 将 end 参数 默认 的 回 车 符 设 为 了 句点 符 , 在 结束 时 就 没有 换行 ,后 面 的 3 个 箭头 符 


号 跟 在 了 句点 的 右 侧 。 
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除了 屏幕 输出 (也 就 是 将 数据 结果 显示 在 计算 机 屏幕 上 ) 以 外 ,print() 也 支持 文 
件 输出 (将 数据 输出 到 文件 中 进行 保存 )。 为 了 保存 文件 ,print() 提 供 了 一 个 名 为 file 
的 参数 ,例如 : 


>>> out = open( "test. txt", "w") 
>>> print("Hello world", file= out) 


上 述 代码 首先 打开 了 一 个 文件 ,名 为 test. txt, 然 后 使 用 print() 函 数 将 字符 串 
“Hello world” 写 人 到 了 文件 中 。 关 于 Python 中 文件 的 操作 请 参看 本 书 第 7 章 。 

在 打印 输出 大 量 字符 串 时 ,格式 化 功能 特别 重要 ,这 让 整个 输出 语句 在 格式 上 显 
得 更 为 清晰 ,尤其 是 当 需 要 将 不 同类 型 的 变量 拼接 在 一 起 的 时 候 。Python 3 中 的 
print() 函 数 提供 了 两 种 格式 化 的 方式 : 一 种 方式 兼容 了 Python 2 格式 化 的 语法 , 另 
一 种 方式 采用 了 全 新 的 format() 函 数 。 下 面 先 来 看 看 传统 的 类 C 语言 的 格式 化 输出 
方式 : 

>>> str = "Hello world" 

>>> length= len(str) 


>>> print(" 字 符 串 名 s 的 长 度 是 : %d" % (str，length) ) 
字符 串 Hello world 的 长 度 是 :11 


上 述 代码 的 第 3 行 中 的 %s 表示 此 处 需要 一 个 字符 串 进行 填充 ,%d 表示 此 处 需 
要 一 个 带 符 号 的 整数 进行 填充 ,而 后 面 的 % (str, length) 则 表示 用 str 和 length 这 两 
个 变量 分 别 填 充 前 面 的 %s 和 %d, 也 就 是 将 %s 所 在 的 位 置 用 str 的 值 ( 也 就 是 
“Hello world”) 进 行 替换 ,将 中 d 所 在 的 位 置 用 length 的 值 (也 就 是 11) 进 行 替 换 , 替 
换 以 后 print() 参 数 的 字符 串 就 变 成 了 最 后 一 行 所 看 到 的 结果 。 除 了 %s 和 %d 以 外 ， 
Python 还 提供 了 数 十 种 不 同类 型 的 转换 占 位 符 ,常见 的 如 表 2. 2 所 示 。 


表 2.2 常见 的 转换 占 位 符 


转换 类 型 含义 
d 带 符号 的 十 进 制 整数 
i 带 符 号 的 十 进 制 整数 
o 不 带 符号 的 八进制 
u 不 带 符 号 的 十 进 制 
x 不 带 符号 的 十 六 进 制 (小 写 ) 
XxX 不 带 符 号 的 十 六 进 制 ( 大 写 ) 
{PF 十 进 制 浮 点 数 
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续 表 
转换 类 型 含义 
e 用 科学 记 数 法 表示 的 浮 点 数 (小 写 ) 
E 用 科学 记 数 法 表示 的 浮 点 数 (大 写 ) 
r 字符 串 ( 使 用 repr 转换 任意 Python 对 象 ) 
S 字符 串 (使 用 str 转换 任意 Python 对 象 ) 


另 一 种 格式 化 方式 是 使 用 format() 函 数 , 这 让 输出 格式 更 为 清晰 : 


>>> str = "Hello world" 

>>> length= len(str) 

>>> print(" 字 符 串 {0} 的 长 度 是 :{1}". format(str, length)) 
字符 串 Hello world 的 长 度 是 :11 


在 第 3 行 代码 中 ,{0} 表 示 第 1 个 占 位 符 ,{1) 表 示 第 2 个 占 位 符 , 以 此 类 推 ; 
format() 函 数 的 第 1 个 参数 用 于 填充 (0} ,第 2 个 参数 用 于 填充 {1} ,以 此 类 推 。 在 使 
用 format() 时 并 不 区 分 填充 占 位 符 的 变量 的 实际 类 型 ,这 使 得 格式 化 工作 更 为 轻松 。 
format() 的 另 一 个 好 处 是 可 以 使 用 数组 下 标 ,例如 : 

>>> data = ["Xiaoming", 20] 


>>> print("{0[0]} is {0[1]} years old.".format(data)) 
Xiaoming is 20 years old. 


在 以 上 代码 中 ,{0L0]} 表 示 使 用 data 的 第 1 个 值 ,{0L1]} 表 示 使 用 data 的 第 2 
个 值 ,因此 分 别 把 data 的 “Xiaoming” 和 20 这 两 个 值 填充 到 前 、 后 两 个 占 位 符 ,得 到 第 
3 行 所 示 的 最 终结 果 。 


2. title() 函 数 


例如 : 


>>> name = "lisa" 

>>> print("I like " + name. title()) 

I like Lisa 

在 这 个 示例 中 ,小 写 的 字符 串 “lisa” 存 储 到 了 变量 name 中 。 在 print() 语 句 中 ， 
title() 函数 出 现在 这 个 变量 的 后 面 。 方法 函数 title() 是 Python 可 对 数据 执行 的 操 
作 。 在 name.title() 中 ,name 后 面 的 句点 ”. ”让 Python 对 变量 name 执行 title() 方 
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法 指定 的 操作 。 每 个 函数 后 面 都 跟着 一 对 括号 ,这 是 因为 函数 通常 需要 额外 的 信息 
来 完成 其 工作 。 这 种 信息 是 在 括号 内 提供 的 。title() 函数 不 需要 额外 的 信息 ,因此 它 
后 面 的 括号 是 空 的 。 

title() 以 首 字母 大 写 的 方式 显示 每 个 单词 ,即将 每 个 单词 的 首 字母 都 改 为 大 写 。 
这 很 有 用 ,因为 用 户 经 常 需要 将 名 字 视 为 信息 。 例 如 ,用 户 可 能 希望 程序 将 值 lisa、 
Lisa 和 LISA 视 为 同一 个 名 字 ,并 将 它们 都 显示 为 Lisa。 

另外 还 有 几 个 很 有 用 的 大 小 写 处 理 方法 。 例 如 要 将 字符 串 改 为 全 部 大 写 或 全 部 
小 写 , 可 以 像 下 面 这 样 做 : 

>>> name = "lisa" 

>>> print(name. upper()) 

LISA 

>>> name = "LiSA" 

>>> print (name. lower()) 

lisa 

在 存储 数据 时 ,lower() 方 法 很 有 用 。 在 很 多 时 候 无 法 依靠 用 户 来 提供 正确 的 大 
小 写 , 因 此 需要 将 字符 串 先 转换 为 小 写 ,再 存储 它们 。 这 样 以 后 需要 显示 这 些 信息 
时 ,再 将 其 转换 为 最 合适 的 大 小 写 方式 。 


3. rstrip() 函数 


在 程序 中 ,额外 的 空白 可 能 会 令 人 迷惑 。 对 程序 员 来 说 ,“python” 和 * python ” 
看 起 来 几乎 没什么 两 样 ,但 对 程序 来 说 ,它们 却 是 两 个 不 同 的 字符 串 。Python 能 够 
发 现 “python” 中 额外 的 空白 ,并 认为 它 是 有 意义 的 一 一 除非 告诉 它 不 是 这 样 的 。 

空白 很 重要 ,因为 用 户 经 常 需要 比较 两 个 字符 串 是 否 相 同 。 一 个 有 代表 性 的 示 
例 是 ,在 用 户 登录 网 站 时 检查 其 用 户 名 。 在 一 些 简 单 得 多 的 情形 下 ,额外 的 空格 也 可 
能 令 人 迷惑 ,所 幸 在 Python 中 删除 用 户 输入 的 数据 中 的 多 余 空白 很 容易 。 

Python 能 够 找 出 字符 串 开 头 和 末尾 多 余 的 空白 ,要 确保 字符 串 末 尾 没 有 空白 ， 
可 以 使 用 rstripO 〇 函数 。 


>>> language= " python " 
>>> language 
“python ， 
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>>> language. rstrip() 

a 

>>> language 

”python “ 

存储 在 变量 language 中 的 字符 串 末尾 包含 多 余 的 空白 ( 见 第 1 行 )。 用 户 在 终端 
会 话 中 向 Python 询问 这 个 变量 的 值 时 可 以 看 到 末尾 的 空格 ( 见 第 3 行 )。 对 变量 
language 调用 rstrip() 方 法 后 ,这 个 多 余 的 空格 被 删除 了 ( 见 第 4 行 )。 然 而 ,这 种 删 
除 只 是 暂时 的 , 接 下 来 再 次 询问 language 的 值 时 ,用 户 会 发 现 这 个 字符 串 与 输入 时 一 
样 ,依然 包含 多 余 的 空白 ( 见 第 7 行 )。 

如 果 要 永久 删除 这 个 字符 串 中 的 空白 ,必须 将 删除 操作 的 结果 存 回 到 变量 中 

>>> language= ' python ' 

>>> language = language. rstrip() 

>>> language 

' python’ 

为 了 删除 这 个 字符 串 中 的 空白 ,用 户 需要 将 其 末尾 的 空白 去 除 , 再 将 结果 存 回 
到 原来 的 变量 中 ( 见 第 2 行 )。 在 编程 中 经 常 需要 修改 变量 的 值 ,再 将 新 值 存 回 到 
原来 的 变量 中 ,这 就 是 变量 的 值 可 能 随 程序 的 运行 或 用 户 输入 的 数据 而 发 生变 化 
的 原因 。 

用 户 还 可 以 去 除 字符 串 开 头 的 空白 ,或 同时 去 除 字符 串 两 端的 空白 。 为 此 ,可 以 
分 别 使 用 lstrip() 和 strip 〇 方法 : 


>>> language= ' python ' 
>>> language. rstrip() 
"Python 

>>> language. lstrip() 
‘python ' 

>>> language. strip() 
python' 


在 这 个 示例 中 ,首先 创建 了 一 个 开头 和 末尾 都 有 空白 的 字符 串 , 接 下 来 分 别 删 除 
末尾 ( 见 第 2 行 )、 开 头 ( 第 4 行 ) 和 两 端 (第 6 行 ) 的 空格 。 尝 试 使 用 这 些 函 数 有 助 于 


用 户 熟 悉 字 符 串 操作 。 在 实际 程序 中 ,这 些 函 数 经 常用 于 在 存储 用 户 输入 前 对 其 进 
行 清 理 。 
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本 章 小 结 


在 本 章 中 大 家 学 习 了 在 Python 中 如 何 创建 合法 的 变量 名 、 给 变量 赋值 ,以 及 各 
种 数据 类 型 和 Python 中 常用 的 函数 。 通 过 本 章 的 学 习 , 读 者 还 理解 了 分 支 结构 控制 
语句 的 基本 用 法 ,让 语句 允许 在 脚本 中 使 用 一 个 或 多 个 条 件 来 检查 数据 ,可 以 添加 
else 语句 ,在 条 件 失败 时 以 提供 另 一 条 逻辑 路 径 ; 可 以 通过 在 if 语句 中 使 用 一 个 或 多 
个 elif 来 扩展 ,将 elif 语句 串联 到 一 起 来 不 断 地 比较 额外 的 值 。 另 外 ,本 章 还 介绍 了 
如 何 创 建 for 循环 和 while 循环 ,并 讲解 了 嵌 套 循环 。 


习题 


请 完成 下 面 的 练习 ,在 做 每 个 练习 时 都 要 编写 一 个 独立 的 程序 ,在 保存 每 个 程序 
时 使 用 符合 标准 Python 约定 的 文件 名 ,即使 用 小 写字 母 和 下 面 线 ,例如 simple_ 
message. py 和 simple_messages. py。 

(1) 简单 消息 : 将 一 条 消息 存储 到 变量 中 ,再 将 其 打印 出 来 。 

(2) 多 条 简单 消息 : 将 一 条 消息 存储 到 变量 中 ,将 其 打印 出 来 ; 再 将 变量 的 值 修 
改 为 一 条 新 消息 ,并 将 其 打印 出 来 。 


第 与 间 
>>。 


数据 结构 与 郴 数 设计 


本 章 学 习 目 标 : 

。 熟练 掌握 序列 的 基本 概念 

。 熟练 掌握 列表 元 组 ,字典 、 字 符 串 的 概念 和 各 种 用 法 

。 熟练 掌握 各 种 序列 类 型 之 间 的 转化 

。 了 解 集合 的 基本 概念 和 用 法 

。 熟练 掌握 自 定义 函数 的 设计 和 使 用 

。 深入 了 解 各 类 参数 以 及 传递 过 程 

本 章 主要 介绍 两 方面 内 容 , 一 是 常用 的 数据 结构 ,二 是 函数 设计 。 在 数据 结构 方 
面 , 先 介绍 序列 的 基本 概念 ,然后 介绍 各 种 序列 类 型 ,包括 列表 、 元 组 .字符 串 和 字典 ， 
最 后 讲解 集合 的 概念 和 用 法 ; 在 函数 设计 方面 , 先 介绍 函数 的 定义 ,接着 对 函数 的 返 
回 值 和 形 参 、 实 参 ,默认 参数 .关键 参数 .可 变 长 度 参 数 .序列 参数 等 各 类 参数 进行 介 
绍 ,由 此 完成 对 函数 的 比较 细致 ,全 面 的 讲解 。 


3.1 序列 


在 Python 中 ,最 基本 的 数据 结构 是 序列 (sequence)。 序 列 中 的 每 个 元 素 被 分 配 
一 个 序号 , 即 元 素 的 位 置 , 也 称 为 索引 。 第 1 个 索引 是 0, 第 2 个 是 1, 以 此 类 推 。 序 列 
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中 的 最 后 一 个 元 素 标记 为 一 1, 倒 数 第 2 个 元 素 为 一 2, 以 此 类 推 。 

Python 中 包含 6 种 内 建 的 序列 , 即 列表 、 元 组 .字符 串 、Unicode 字符 串 、buffer 
对 象 和 xrange 对 象 。 本 章 重点 讨论 列表 和 元 组 ,列表 和 元 组 的 主要 区 别 在 于 列表 可 
以 修改 ,而 元 组 不 能 。 

所 有 序列 类 型 都 可 以 进行 某 些 特定 的 操作 ,这 些 操 作 包 括 索 引 (indexing)、 分 片 
(sliceing)、 加 (adding) 、 乘 (multiplying) 以 及 检查 某 个 元 素 是 否 属于 序列 的 成 员 ( 成 
员 资 格 )。 除 此 之 外 ,Python 还 有 计算 序列 长 度 、 找 出 最 大 元 素 和 最 小 元 素 的 内 建 


函数 。 
3.1.1 列表 人 
列表 由 一 系列 按 特 定 顺序 排列 的 元 素 组 成 。 用 户 可 以 创建 包含 字 ” 回 半 本 本 全 


母 表 中 所 有 字母 .数字 0~9 或 所 有 家 庭 成 员 姓名 的 列表 ; 也 可 以 将 任 视频 讲解 


何 内 容 加 入 到 列表 中 ,其 中 的 元 素 之 间 可 以 没有 任何 关系 。 鉴 于 列表 通常 包含 多 个 
元 素 ,给 列表 指定 一 个 表示 复数 的 名 称 ( 例 如 letters、digits 或 names) 是 个 不 错 的 主 
意 。 在 Python 中 ,用 方 括号 ([]) 来 表示 列表 ,并 用 逗号 来 分 隔 其 中 的 元 素 。 下 面 是 
一 个 简单 的 列表 示例 ,这 个 列表 包含 几 种 自行 车 。 

【 例 3-1】 列表 实例 。 

bicycles. py 

bicycles =['trek', ‘cannondale', 'redline', 'specialized'] 

print(bicycles) 

如 果 让 Python 将 列表 打印 出 来 ,Python 将 打印 列表 的 内 部 表示 ,包括 方 括号 ， 
即 ['trek'，'cannondale'，'redline'，'specialized'] ,但 这 不 是 要 让 用 户 看 到 的 输出 。 下 
面 来 学 习 如 何 访问 列表 元 素 。 

列表 是 有 序 集合 ,因此 要 访问 列表 中 的 任何 元 素 , 只 需 将 该 元 素 的 位 置 或 索引 告 
诉 Python 即 可 。 如 果 要 访问 列表 元 素 ,可 以 先 指 出 列表 的 名 称 , 再 指出 元 素 的 索引 ， 
并 将 其 放 在 方 括号 内 。 例 如 ,代码 “bicycles 王 ['trek'，'cannondale'，'redline '， 
'specialized']print(bicyclesL0])” 从 列表 bicycles 中 提取 第 一 款 自行 车 。 当 用 户 请 求 
获取 列表 元 素 时 ,Python 只 返回 该 元 素 ( 即 trek) ,而 不 包括 方 括 号 和 引号 ,这 正 是 想 
要 看 到 的 整洁 ,干净 的 输出 。 用 户 还 可 以 对 任何 列表 元 素 调用 第 2 章 介绍 的 字符 串 
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方法 ,例如 可 以 使 用 title() 方 法 让 元 素 'trek ' 的 格式 更 整洁 , 即 ” bicycles 一 ['trek '， 
"cannondale'，'redline'，'specialized'"] print(bicycles[0].title())”, 这 个 示例 的 输出 与 
前 一 个 示例 相同 ,只 是 首 字母 是 大 写 的 。 

例 3-2 为 Python 的 列表 操作 。 

【 例 3-2】 列表 操作 实例 。 


sample list=['a', 'b',0,1,3] 
得 到 列表 中 的 某 一 个 值 : 


value start = sample list[0] 
end value = sample list[-1] 


删除 列表 的 第 1 个 值 : 

del sanple_list[0] 

在 列表 中 插入 一 个 值 : 

sample_list. insert(0, 'sample value') 

得 到 列表 的 长 度 : 

list_length= len( sample_list) 

列表 遍历 : 

for elenent in sample list:print(element) 


下 面 是 Python 列表 的 高 级 操作 和 技巧 。 
产生 一 个 数值 递增 列表 : 


num inc list= range(30) # 返 回 列表 [0,1,2,.……,29] 


用 某 个 固定 值 初始 化 列表 : 


initial value=0 
list length=5 
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sample list= [initial value for i in range(10)] 
sample list= [initial value] * list length 
#sample list== [0,0,0,0,0] 


list 的 方法 : 


L.append(var) # 追 加 元 素 
L. insert( indexv var) # 在 指定 位 置 插入 元 素 


L. pop(var) # 返 回 最 后 一 个 元 素 ,并 从 list 中 将 其 删除 
L. remove(var) # 删 除 第 一 次 出 现 的 该 元 素 

L.count(var) # 该 元 素 在 列表 中 出 现 的 个 数 

L. index(var) # 该 元 素 的 位 置 ,无 则 抛 出 异常 

L. extend(1ist) # 追 加 list, 即 合并 list 到 LL 上 

L.sort() # 排 序 

L. reverse() # 倒 序 


list 操作 符 : 、 十 、x ,关键 字 del: 


a[1:] # 片 段 操作 符 , 用 于 子 list 的 提取 

[1,2]+[3,4] 井 为 [1,2,3,4], 同 extend() 

[2] * 4 ## 为 [2,2,2,2] 

del L[1] # 删 除 指定 下 标的 元 素 

del L[1:3] # 删 除 指定 下 标 范围 的 元 素 

list 的 复制 : 

=L #L1 为 工 的 别名 ,用 C 语言 来 说 就 是 指针 地 址 相同 ,对 L1 操作 即 对 工 操作 
# 函数 参数 就 是 这 样 传递 的 

=L[:] #IL1 为 工 的 克隆 , 即 另 一 个 副本 

3:1.2 元 组 
创建 元 组 ( 即 常量 数组 ): 


tuple= ("a’ 'b', "ce, "d', ‘a 


元 组 可 以 用 list 的 [操作 符 提取 元 素 ,但 不 能 直接 修改 元 素 。 
元 组 的 操作 : 索引 切片、 连接 、 重 复 。 
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【 例 3-3】 元 组 操作 实例 。 


t= ("fentiao", 5, "male") 
# 正 向 索引 

print(t[0]) 

# 反 向 索引 

print(t[-1]) 

# 元 组 嵌 套 时 元 素 的 访问 
tl = ("fentiao", 5, "male", ("playl", "play2", "play3") ) 
print(tl[3][1]) 

# 切 片 

print(t[ :2]) 

# 逆转 元 组 元 素 
print(t[::-1]) 

# 连 接 

print(t + t1) 

# 重 复 

七 3 


3.1.3 字符 串 


字符 串 是 Python 语言 中 的 一 种 数据 类 型 。 字 符 串 由 任意 字符 构成 ,一 个 字符 可 
能 是 一 个 字母 .数值 .符号 或 者 标点 符号 。 字 符 串 是 用 来 记录 文本 信息 的 ,它们 在 
Python 中 作为 序列 ,也 就 是 说 一 个 包含 其 他 对 象 的 有 序 集合 。 序 列 中 的 元 素 包含 了 
一 个 从 左 到 右 的 顺序 ,序列 中 的 元 素 根据 它们 的 相对 位 置 进行 存储 和 读 取 。 从 严格 
意义 上 说 ,字符 串 是 单个 字符 的 字符 串 的 序列 。 

例如 : 


str= "Hello My friend" 


字符 串 是 一 个 整体 ,如 果 用 户 想 直接 修改 字符 串 的 某 一 部 分 , 则 是 不 可 能 的 ,但 
能 够 读 出 字符 串 的 某 一 部 分 。 
子 字符 串 的 提取 : 


str[:6] 


字符 串 包含 判断 操作 符 : in .not in 
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"He" in str 
"she" not in str 


string 模块 提供 的 方法 : 


S. find(substring, [start [,end]]) 
S. rfind( substring, [ start [,end]]) 
S. index( substring, [start [,end]]) 
S. rindex( substring, [start [,end]]) 
S. count( substring, [start [,end]]) 
S. lowercase() 

S.capitalize() 

S. lower() 

S. upper() 

S. swapcase() 

S. split(str, '') 

S. join(list, '') 


处 理 字符 串 的 内 置 函数 : 


len(str) 

cmp("my friend", str) 
max( 'abcxyz') 

min( 'abcxyz') 


string 的 转换 : 


float(str) 
int(str) 
int(str, base) 
long(str) 
long( str, base) 


# 可 指定 范围 查找 子 串 ,返回 索引 值 ,否则 返回 -1 
# 反 向 查找 

# 同 find(), 只 是 找 不 到 产生 ValueError 异常 
# 同 上 , 反 向 查找 

# 返 回 找到 子 串 的 个 数 

# 首 字母 小 写 

# 首 字母 大 写 

# 转 小 写 

# 转 大 写 

# 大 小 写 互 换 

# 将 string 转 list, 以 空格 切 分 

# 将 list 转 string, 以 空格 连接 


# 串 长 度 

# 字 符 串 比 较 ,第 一 个 大 ,返回 1 
# 寻找 字符 串 中 最 大 的 字符 

# 寻找 字符 串 中 最 小 的 字符 


# 变 成 浮 点 数 ,float("lel") 的 结果 为 0.1 

# 变 成 整 型 , int("12") 的 结果 为 12 

# 变 成 base 进 制 整 型 数 , int("11",2) 的 结果 为 2 
# 变 成 长 整 型 

# 变 成 base 进 制 长 整 型 


字符 串 的 格式 化 (注意 其 转 义 字符 ,大 多 如 C 语言 ): 


str_format 和 (参数 列表 ) 


【 例 3-4】 字符 串 操作 实例 。 


# 参 数列 表 是 以 tuple 的 形式 定义 的 , 即 不 可 以 在 运行 中 改变 


>>> print("%s's height is %dcm" g% ("My brother", 180)) 


My brother's height is 180cm 
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3.1.4 列表 与 元 组 之 间 的 转换 


使 用 list() 和 tuple() 函 数 进行 元 组 和 列表 的 相互 转换 。 


tuple(1s) 
list(1s) 


3.2 字典 


字典 是 一 种 通过 名 字 或 者 关键 字 引 用 的 数据 结构 ,其 键 可 以 是 数 
字 ,字符 串 、 元 组 ,这 种 结构 类 型 也 称 为 映射 。 字 典 类 型 是 Python 中 唯一 内 建 的 映射 
类 型 。 


3.2.1 创建 字典 


(1) 直接 创建 字典 : 


d= {'one':1, 'two':2, 'three':3} 


(2) 通过 dict() 创 建 字典 


#5_*_ coding:utf-8 _x 

items =[('one',1),('two',2),('three', 3), ('four', 4)] 
d= dict(items) 

print(d) 


(3) 通过 关键 字 创 建 字典 : 


#_#*_ coding:utf-8 _* 
d=dict(one=1,two=2,three= 3) 
print(d) 

print(d[ 'one']) 

print(d[ 'three']) 


(4) 字典 的 格式 化 字符 串 : 


#_*_ coding:utf-8 _x 
d= {'one':1, 'two':2, 'three':3, 'four':4} 
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print(d) 
print("three is %(three)s." %d) 


3.2.2 字典 的 方法 


每 一 个 元 素 是 pair, 包 含 key、value 两 部 分 。key 是 integer 或 string 类 型 ,value 
是 任意 类 型 。 键 是 唯一 的 ,字典 只 认 最 后 一 个 赋 的 键 值 。 


dictionary 的 方法 : 

D.get(key, 0) # 同 dict[key], 如 果 指 定 键 的 值 不 存在 ,返回 默认 值 

D. has_key(key) # 有 该 键 返 回 True, 否则 返回 False 

D.keys() # 返 回 字典 键 的 列表 

D.values() 

D. items() 

D. update( dict2) 上 增加 合并 字典 

D. popitenm( ) # 得 到 一 个 pair, 并 从 字典 中 删除 它 ,车 已 空 则 抛 出 异常 
D.clear() # 清空 字典 , 同 del dict 

D.copy() # 复 制 字典 


D. cmp(dict1, dict2) # 比较 字典 (优先 级 为 元 素 个 数 、 键 值 大 小 ) 
# 第 一 个 大 返回 1, 小 返回 -1, 一 样 返回 0 


dictionary 的 复制 


dictl = dict 井 别名 
dict2 = dict.copy() ” 井 克 隆 , 即 另 一 个 副本 


3.2.3 列表 .元 组 与 字典 之 问 的 转换 


这 三 者 之 间 的 转换 并 不 复杂 ,但 字典 的 转换 由 于 有 key 的 关系 ,所 以 其 他 二 者 不 
能 转换 为 字典 。 
(1) 对 元 组 进行 转换 : 


>>> fruits = ('apple', ‘banana', 'orange') # 元 组 转换 为 列表 
>>> list(fruit) 


(2) 对 列表 的 转换 : 


>>> fruit list = ['apple', 'banana', 'orange'] # 列 表 转 换 为 元 组 
>>> tuple(fruit list) 
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(3) 对 字典 的 转换 : 用 户 可 以 使 用 tuple() 和 list() 函 数 将 字典 转换 为 元 组 和 列 
表 , 但 要 注意 这 里 转换 后 和 转换 前 的 元 素 顺序 是 不 同 的 ,因为 字典 类 似 于 散 列 , 列 表 
类 似 于 链表 ,元 组 类 似 于 列表 ,只 是 元 素 无 法 改变 ,所 以 要 把 散 列 转换 为 链表 而 顺序 
不 变 是 不 可 行 的 。 此 时 可 以 借助 于 有 序 字典 (OrderedDict) ,有 序 字典 是 字典 的 子 类 ， 
它 可 以 记 住 元 素 添加 的 顺序 ,从 而 得 到 有 序 的 字典 。 对 于 有 序 字 典 这 里 不 深入 探讨 ， 
只 给 出 普通 字典 的 例子 做 参考 ,代码 如 下 : 

【 例 3-5】 字典 转换 例子 。 


>>> fruit_dict = { 'apple':1，'banana':2，'orange':3} 


>>> tuple(fruit_dict) # 将 字典 的 key 转换 为 元 组 

>>> tuple(fruit_dict,value()) # 将 字典 的 value 转换 为 元 组 

>>> list(fruit_dict) # 将 字典 的 key 转换 为 列表 

>>> list(fruit_dict. value()) # 将 字典 的 value 转换 为 列表 
3.3 集合 


3.3.1 集合 的 创建 


在 Python 中 集合 由 内 置 的 set 类 型 定义 ,如 果 要 创建 集合 ,需要 将 所 有 项 (元 素 ) 
放 在 花 括号 ({)) 内 ,以 逗号 (,) 分 隔 。 

【 例 3-6】 集合 实例 。 

>ns{Pr yy, ty "hy vy nd 


>>> type(s) 
<class 'set> 


集合 可 以 有 任意 数量 的 元 素 , 它 们 可 以 是 不 同 的 类 型 (例如 数字 、 元 组 、 字 符 串 


等 ) ,但 是 集合 不 能 有 可 变 元 素 ( 例 如 列表 、 集 合 或 字典 ) : 
= # 整 型 的 集合 
>>> s= {1.0, ‘Python', (1, 2, 3)} # 混 合 类 型 的 集合 
>>> s= set(['P', 'y']) 井 从 列表 创建 
> asf1 2, [3, 4]} # 不 能 有 可 变 元 素 


TypeError: unhashable type: '1ist' 


创建 空 集 合 比 较 特 殊 ,在 Python 中 空 花 括号 ({)) 用 于 创建 空 字典 。 如 果 要 创建 
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一 个 没有 任何 元 素 的 集合 ,使 用 set() 函数 ( 不 要 包含 任何 参数 ): 


>>d={)} # 空 字典 
>>> type(d) 

<class 'dict> 

>>> s= set() # 空 集合 
>>> type(s) 


<class 'set> 


回顾 数学 的 相关 知识 ,发 现 集合 具有 以 下 特性 。 

(1) 无 序 性 : 在 一 个 集合 中 ,每 个 元 素 的 地 位 都 是 相同 的 ,元 素 之 间 是 无 序 的 。 
在 集合 上 可 以 定义 序 关 系 ,在 定义 了 序 关 系 之 后 元 素 之 间 就 可 以 按照 序 关 系 排序 ,但 
就 集合 本 身 的 特性 而 言 ,元 素 之 间 没 有 必然 的 序 。 

(2) 互 异性 : 在 一 个 集合 中 ,任何 两 个 元 素 都 认为 是 不 相同 的 , 即 每 个 元 素 只 能 
出 现 一 次 。 有 时 需要 对 同一 元 素 出 现 多 次 的 情形 进行 刻画 ,此 时 可 以 使 用 多 重 集 , 其 
中 的 元 素 允 许 出 现 多 次 。 

(3) 确定 性 : 给 定 一 个 集合 ,任意 一 个 元 素 ,该 元 素 或 者 属于 或 者 不 属于 该 集合 ， 
二 者 必 是 其 一 ,不 允许 有 模棱两可 的 情况 出 现 。 

当然 ,Python 中 的 集合 也 具有 这 些 特 性 。 例 如 : 


# 无 序 性 

>>> s = set( 'Python') 

>>s 

| 

>>> s[0] # 不 支持 索引 
TypeError: 'set' object does not support indexing 
# 互 异性 

>>> s= set( 'Hello') 

>>s 

Hs 

# 确 定性 

>>'l'ins 

True 

>>> 'P'not ins 

True 


注意 : 由 于 集合 是 无 序 的 ,所 以 索引 没有 任何 意义 。 也 就 是 说 ,无 法 使 用 索引 或 
切片 访问 或 更 改 集合 元 素 。 
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3.3.2 集合 的 运算 


集合 之 间 也 可 以 进行 数学 集合 运算 (例如 并 集 、 交 集 等 ) ,可 用 相应 的 操作 符 或 方 
法 来 实现 。 考 虑 A、B 两 个 集合 ,进行 以 下 操作 。 
【 例 3-7】 合 运算 实例 。 


>>>R= set('abcd') 
>>> B= set('cdef') 


1. 子 集 


子 集 为 某 个 集合 中 一 部 分 的 集合 , 故 也 称 部 分 集合 。 

使 用 操作 符 “<” 执 行 子 集 操作 ,同样 ,也 可 以 使 用 issubset() 方 法 完成 。 例 如 
>> C= set('ab') 

>>C<A 

True 

>>>C<B 

False 


>>> C. issubset(A) 
True 


2. 并 集 


一 组 集合 的 并 集 是 这 些 集合 的 所 有 元 素 构成 的 集合 ,而 不 包含 其 他 元 素 。 
使 用 操作 符 “| ”执行 并 集 操作 ,同样 ,也 可 以 使 用 union() 方 法 完成 。 例 如 ， 
>>>R|B 

er de ba 


>>> A. union(B) 
Te, ‘E', di, er, hb’, va'l 


3. 交集 


两 个 集合 A 和 B 的 交集 是 含有 所 有 既 属于 A 又 属于 B 的 元 素 且 没有 其 他 元 素 
的 集合 。 
使 用 操作 符 “& ?执行 交集 操作 ,同样 ,也 可 以 使 用 intersection 〇 方法 完成 。 例 如 : 
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>>>R&B 
eae 
>>> A. intersection(B) 
Rae 


4. 差 集 


A 与 B 的 差 集 是 所 有 属于 A 但 不 属于 B 的 元 素 构成 的 集合 。 

使 用 操作 符 “-” 执 行 差 集 操作 ,同样 ,也 可 以 使 用 differenceO 〇 ,方法 完成 。 例 如 : 
>>A-B 

(ba 

>>> A. difference(B) 

{'b', 'a'} 


5. 对 称 差 


两 个 集合 的 对 称 差 是 只 属于 其 中 一 个 集合 ,而 不 属于 另 一 个 集合 的 元 素 组 成 的 集合 。 

使 用 操作 符 “^” 执 行 对 称 差 操 作 , 同 样 ,也 可 以 使 用 symmetric_difference() 方 法 
完成 。 例 如 : 

>>>R^B 

人 5 

>>> A. symmetric_ difference(B) 

(1 ee 


6. 更 改 集合 


虽然 集合 中 不 能 有 可 变 元 素 ,但 集合 本 身 是 可 变 的 。 也 就 是 说 ,可 以 添加 或 删除 
其 中 的 元 素 。 

用 户 可 以 使 用 add() 方 法 添加 单个 元 素 , 使 用 update() 方 法 添加 多 个 元 素 ， 
update() 可 以 使 用 元 组 列表 、 字 符 串 或 其 他 集合 作为 参数 。 例 如 : 


> eu {Py 


>>> s.add( 't') # 添 加 一 个 元 素 
>>s 

i 

>>> s. update([ 'h', 'o', 'n']) # 添 加 多 个 元 素 
>>s 


{'y', ov mv 二 Pb 
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5 .pdate(L'H, el U1 1 "oy # 添 加 列表 和 集合 
>>s 
WH a on ES 


在 所 有 情况 下 元 素 都 不 会 重复 。 
7. 从 集合 中 删除 元 素 


用 户 可 以 使 用 discard() 和 remove() 方 法 删除 集合 中 特定 的 元 素 。 
两 者 之 间 唯 一 的 区 别 在 于 如 果 集 合 中 不 存在 指定 的 元 素 , 使 用 discard() 结 果 保 
持 不 变 , 但 在 这 种 情况 下 remove() 会 引发 KeyError。 例 如 : 


et he Ae ee 

>>> s. discard( 't') # 去 掉 一 个 存在 的 元 素 

>>> s 

人 RS 和 

>>> s. remove( 'h') # 删 除 一 个 存在 的 元 素 

>>> 

yo we 人 

>>> s. discard( 'w') # 去 掉 一 个 不 存在 的 元 素 (正常 ) 
>>> s 

{mo 

>>> s. remove( 'w') # 删 除 一 个 不 存在 的 元 素 ( 引 发 错误 ) 
KeyError: 'w' 


类 似 地 ,用 户 可 以 使 用 pop() 方 法 删除 和 返回 一 个 项 目 , 还 可 以 使 用 clear() 方 法 
删除 集合 中 的 所 有 元 素 。 例 如 


>>> s = set('PYthon') 


>>> 

>>> s.pop() # 随 机 返回 一 个 元 素 
四 

>>> 

>>> s. clear() # 清 空 集合 


注意 : 集合 是 无 序 的 ,所 以 无 法 确定 哪个 元 素 将 被 pop, 完 全 随机 。 
3.3.3 ”集合 的 方法 


使 用 dir 〇 来 查看 方法 列表 : 
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>>> dir(set) 


[and clase ', ' containe '; ' delattr dir ’' dc )" 9 7 fomat 
ge _', ' getattribute ， AT 
人 do 
Tod eR Tor Por ry rob 7 Cor tattr Sizeof Cp 


SEE 


Subclasshook 


', '__xor ', 'add', 'clear', 'copy', 'difference', ' 


difference update', 'discard', 'intersection', 'intersection update', 'isdisjoint', ‘issubset 


', 'issuperset', 'pop', 'remove', 'symmetric difference', 'symmetric difference update', ‘union 


', "update'] 


可 以 看 到 有 表 3. 1 所 示 的 方法 可 用 。 


表 3.1 集合 的 方法 
方 ”法 描 述 
add() 将 元 素 添 加 到 集合 中 
clear() 删除 集合 中 的 所 有 元 素 
copy() 返回 集合 的 浅 复制 


difference() 
difference_update() 
discard() 
intersection() 
intersection_update() 
isdisjoint() 

issubset() 

issuperset() 

pop() 

remove() 
symmetric_difference() 
symmetric_difference_update() 
union() 


update() 


将 两 个 或 多 个 集合 的 差 集 作为 一 个 新 集合 返回 

从 一 个 集合 中 删除 另 一 个 集合 的 所 有 元 素 

删除 集合 中 的 一 个 元 素 ( 如 果 元 素 不 存在 , 则 不 执行 任何 操作 ) 
将 两 个 集合 的 交集 作为 一 个 新 集合 返回 

用 自己 和 另 一 个 的 交集 来 更 新 这 个 集合 

如 果 两 个 集合 有 一 个 空 交 集 , 返 回 True 

如 果 另 一 个 集合 包含 这 个 集合 ,返回 True 

如 果 这 个 集合 包含 另 一 个 集合 ,返回 True 

删除 并 返回 任意 的 集合 元 素 ( 如 果 集 合 为 空 ,会 引发 KeyError) 
删除 集合 中 的 一 个 元 素 ( 如 果 元 素 不 存在 ,会 引发 KeyError) 
将 两 个 集合 的 对 称 差 作 为 一 个 新 集合 返回 

用 自己 和 男 一 个 的 对 称 差 来 更 新 这 个 集合 

将 集合 的 并 集 作为 一 个 新 集合 返回 

用 自己 和 另 一 个 的 并 集 来 更 新 这 个 集合 


其 中 一 些 方法 在 上 述 示例 中 已 经 用 过 ,如 果 有 些 方法 用 户 不 会 用 ,可 使 用 help() 
函数 查看 其 用 途 及 详细 说 明 。 


1. 集合 与 内 置 函数 


表 3.2 中 的 内 置 函 数 通常 作用 于 集合 执行 不 同 的 任务 。 
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表 3.2 集合 的 内 置 函数 


函数 描 述 
all(O) 如 果 集 合 中 的 所 有 元 素 都 是 True( 或 者 集合 为 空 ), 则 返回 True 
any() 如 果 集 合 中 的 所 有 元 素 都 是 True, 则 返回 True; 如 果 集 合 为 空 , 则 返回 False 
enumerate() 返回 一 个 枚 举 对 象 ,其 中 包含 了 集合 中 所 有 元 素 的 索引 和 值 ( 配 对 ) 
len() 返回 集合 的 长 度 (元 素 个 数 ) 
max() 返回 集合 中 的 最 大 项 
min() 返回 集合 中 的 最 小 项 
sorted() 从 集合 中 的 元 素 返 回 新 的 排序 列表 (不 排序 集合 本 身 ) 
sum() 返回 集合 的 所 有 元 素 之 和 


frozenset 是 一 个 具有 集合 特征 的 新 类 ,但 是 一 旦 分 配 , 它 里 面 的 元 素 就 不 能 更 
改 。 这 一 点 和 元 组 非常 类 似 : 元 组 是 不 可 变 的 列表 ,frozenset 是 不 可 变 的 集合 。 
合 是 unhashable 的 ,因此 不 能 用 作 字 典 的 key; 而 frozenset 是 hashable 的 ,可 以 用 作 
字典 的 key。 用 户 可 以 使 用 frozenset() 函数 创建 frozenset, 例 如 : 


>>> s = frozenset( 'Python') 
>>> type(s) 
<class 'frozenset > 


frozenset 也 提供 了 一 些 方法 ,和 set 中 的 类 似 , 同 样 使 用 dir() 查 看 : 


>>> dir(frozenset) 

-97 getattrjbobe 7 和 jash ,init ec la, lan 
pe ',' pew ',' or ')' rond ',' redoce ',' redice ex '' repr 
‘difference', ‘intersection', 'isdisjoint', ‘issubset', 'issuperset', ‘symmetric difference', ‘union'] 


由 于 frozenset 是 不 可 变 的 ,所 以 没有 添加 或 删除 元 素 的 方法 。 
3.4 函数 的 定义 
函数 是 一 段 按 逻 辑 组 织 好 的 、 可 重复 使 用 来 实现 单一 或 者 相关 联 功能 的 代码 ,使 


用 函数 能 有 效 地 提高 应 用 的 模块 性 和 代码 的 重复 利用 率 。 在 Python 中 已 提供 了 许 
多 内 建 函 数 ,例如 print()。 用 户 也 可 以 自己 创建 函数 来 满足 特定 的 需求 ,这 种 函数 
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被 称 为 用 户 自 定义 函数 。 本 节 的 主要 内 容 就 是 用 户 自 定义 函数 的 设计 和 实现 。 

在 Python 中 用 户 可 以 根据 自己 的 需求 自 定义 函数 ,但 是 在 定义 函数 的 过 程 中 必 
须 遵循 以 下 几 条 简单 的 规则 : 

(1) 函数 代码 块 以 def 关键 字 开 头 ,后 接 函 数 标识 符 名 称 和 圆 括号 ”()”。 

(2) 任何 传人 参数 和 自 变 量 必须 放 在 圆 括号 之 内 , 圆 括号 之 间 用 于 定义 参数 。 

(3) 函数 的 第 1 行 语句 可 以 选择 性 地 使 用 文档 字符 串 ( 用 于 存放 函数 说 明 ) 。 

(4) 函数 内 容 以 骨 号 起 始 , 并 且 缩 进 。 

(5)“return [表达 式 ]” 结 束 函数 ,选择 性 地 返回 一 个 值 给 调用 方 ,不 带 表达 式 的 
return 相当 于 返回 None。 

下 面 是 定义 函数 的 一 般 语 法 : 

>>> def functionname(parameters) : 

""" 函 数 _ 文 档 字 符 串 """ 


function_suite 
return [expression] 


在 默认 情况 下 ,参数 值 和 参数 名 称 都 是 按 函数 声明 中 参数 定义 时 的 顺序 匹配 起 
来 的 。 下 面 是 自 定义 函数 的 一 个 简单 实例 ,用 来 打印 简单 的 问候 语 。 

【 例 3-8】 自 定义 函数 实例 。 

>>> def greeting(): 

""" 显 示 简单 的 问候 语 """ 

print("Hello! Python world") 

>>> greeting() 

Hello! Python world 

这 个 实例 演示 了 最 简单 的 自 定义 函数 结构 。 第 1 行 代码 使 用 关键 字 def 来 告诉 
Python 接 下 来 要 定义 一 个 函数 。 这 是 函数 定义 向 Python 指出 了 气 数 名 ,还 可 能 在 
括号 内 指出 函数 为 完成 其 任务 需要 哪些 参数 。 在 这 里 函数 名 为 greeting() , 它 不 需要 
任何 参数 就 能 完成 其 工作 ,因此 括号 内 是 空 的 (即便 如 此 ,括号 也 必 不 可 少 )。 最 后 定 
义 以 冒号 结尾 。 

紧 跟 在 “def greeting():” 后 面 的 所 有 缩 进 行 构 成 了 函数 体 。 引 号 内 的 文本 被 称 
为 注释 ,描述 了 该 函数 是 用 来 做 什么 的 。 文 档 字 符 串 用 三 引号 括 起 ,Python 使 用 它 
们 来 生成 有 关 程 序 中 函数 的 文档 。 


| 第 3 章 ”数据 结构 与 函数 设计 ( 69 


oO 


代码 行 brint("Hello! Python world") 是 函数 体内 唯一 的 一 行 代 码 ,greeting() 
只 做 一 项 工作 , 即 打印 “Hello! Python world”。 

如 果 要 使 用 这 个 函数 ,可 调用 它 , 函 数 调用 让 Python 执行 函数 的 代码 。 如 果 要 
调用 函数 ,可 依次 指定 函数 名 以 及 用 括号 括 起 来 的 必要 的 参数 ,如 第 4 行 代码 所 示 。 
由 于 这 个 函数 不 需要 任何 参数 ,因此 在 调用 它 时 只 需要 输入 greeting() 即 可 ,和 预期 
的 一 样 , 它 打印 “Hello! Python world”。 


3.4.1 函数 的 调用 


定义 一 个 函数 只 是 给 了 函数 一 个 名 称 , 以 及 指定 了 函数 中 应 该 包含 ee 
六 
哪些 参数 和 代码 块 结构 。 当 一 个 函数 的 基本 结构 完成 以 后 ,就 可 以 在 另 
-个 函数 里 调用 执行 ,当然 也 可 以 直接 从 Python 提示 符 执行 。 下 面 通过 实例 来 介绍 

如 何 调用 自 定义 函数 。 

【 例 3-9】 函数 调用 实例 1。 

# 定 义 函 数 

>>> def printme( strings ) : 

""" 打 印 任何 传人 的 字符 串 """ 


print(strings) 
return 


# 调 用 函数 
>>> printme( "我 要 调用 用 户 自 定义 函数 !") 
>>> printme(" 再 次 调用 同一 函数 ") 


以 上 实例 的 输出 结果 : 


我 要 调用 用 户 自 定义 函数 ! 
再 次 调用 同一 函数 


3.4.2 形 参 与 实 参 


在 前 面 定 义 greeting () 函数 时 并 没有 指定 参数 ,现在 假设 给 函数 指定 参数 
username, 调 用 这 个 函数 并 提供 这 种 信息 (人 名 ), 它 将 打印 相应 的 问候 语 。 

这 样 ,在 greeting() 函 数 的 定义 中 变量 username 就 是 一 个 形 参 (函数 完成 其 工作 
所 需 的 一 项 信息 )。 在 函数 的 调用 代码 greeting('Tom') 中 , 值 'Tom' 是 一 个 实 参 。 实 
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参 是 调用 函数 时 传递 给 函数 的 信息 。 在 调用 函数 时 将 要 让 函数 使 用 的 信息 放 在 括号 
内 。 在 greeting('Tom') 中 将 实 参 'Tom' 传 递 给 了 greeting() 函 数 , 这 个 值 被 存储 在 形 


参 username 中 。 


3.4.3 ”函数 的 返回 


None。 在 前 面 的 几 个 例子 中 都 没有 示范 如 何 返回 数值 ,下 面 的 实例 将 对 此 进行 介绍 。 
【 例 3-10】 函数 调用 实例 2。 
# 可 写 函 数 说 明 
>>> def sum(argl, arg2): 
# 返 回 两 个 参数 的 和 
total = argl + arg2 


print(" 函 数 内 : "，total) 
return total 


# 调 用 sum( ) 函 数 
>>> total = sum(10, 20) 


以 上 实例 的 输出 结果 : 


函数 内 : 30 


3.4.4 位 置 参数 


在 调用 函数 时 ,Python 必须 将 函数 调用 中 的 每 个 实 参 都 关联 到 函 加 台 # 芝 
数 定义 中 的 每 个 形 参 。 因 此 ,最 简单 的 关联 方式 是 基于 实 参 的 顺序 ,这 “视频 讲解 
种 关联 方式 被 称 为 位 置 参 数 。 简 单 地 说 ,就 是 在 给 函数 传 参数 时 按照 顺序 依次 传 值 。 
下 面 通过 实例 进行 介绍 。 

【 例 3-11】 位 置 参数 实例 。 


Se 


>>> def power(m, n): 
result=1 
while n>0: 
n=ml 
result = result *m 
return result 
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调用 函数 并 输出 结果 : 


>>> print (power(4,3)) 
64 


在 power(m,n) 函 数 中 有 两 个 参数 , 即 m 和 n, 这 两 个 参数 都 是 位 置 参 数 , 在 调用 


的 时 候 传 人 的 两 个 值 按照 顺序 依次 赋 给 m 和 n。 


3.4.5 默认 参数 与 关键 字 参 数 


所 谓 默认 参数 ,就 是 在 写 函 数 的 时 候 直接 给 参数 传 默认 的 值 , 在 调 


用 的 时 候 默认 参 数 已 经 有 值 ,这 样 就 不 用 再 传 值 了 ,最 大 的 好 处 就 是 降 
低调 用 函数 的 难度 。 


修改 例 3-11, 见 例 3-12。 
【 例 3-12】 默认 参数 实例 。 


>>> def power(m, n= 3): 
result=1 
while n>0: 
n=ml 
result = result*m 
return result 


调用 函数 并 输出 结果 : 


>>> print (power(4)) 
64 


在 修改 后 的 函数 中 ,对 第 2 个 形 参 n 设置 了 一 个 默认 值 3, 在 之 后 的 函数 调用 中 


不 提供 该 函数 的 实 参 ,但 函数 仍旧 能 正常 运行 ,因为 在 这 个 函数 中 n 已 经 是 一 个 默认 
参数 。 在 设置 默认 参数 时 需要 注意 两 点 : 一 是 必 选 参数 在 前 ,默认 参数 在 后 ,否则 
Python 解释 器 会 报错 ; 二 是 默认 参数 一 定 要 指向 不 变 对 象 。 


关键 字 参 数 和 函数 调用 关系 紧密 ,在 函数 调用 时 可 以 通过 使 用 关键 字 参 数 来 确 


定 传人 的 参数 值 。 其 最 显著 的 特征 就 是 使 用 关键 字 参 数 将 允许 函数 调用 时 参数 的 顺 
序 与 声明 时 不 一 致 ,因为 Python 解释 器 能 够 用 参数 名 匹配 参数 值 。 


下 面 通 过 实例 来 介绍 关键 字 参 数 。 
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【 例 3-13】 关键 字 参 数 实例 1。 


# 可 写 函 数 说 明 
>>> def printme( strings): 
""" 打 印 任何 传人 的 字符 串 """ 
print(strings) 
return 


# 调 用 printme() 函 数 
>>> printme( strings = "MY string") 


以 上 实例 的 输出 结果 : 


My string 


下 例 能 将 关键 字 参 数 的 顺序 不 重要 展示 得 更 清楚 。 
【 例 3-14】 关键 字 参 数 实例 2。 
# 可 写 函 数 说 明 
>>>def printinfo(name，age) : 
""" 打 印 任何 传人 的 字符 串 """ 
print("Name: ", name) 


print("Age ", age) 
return 


# 调 用 printinfo() 函 数 


>>> printinfo( age= 40, name = "James") 


以 上 实例 的 输出 结果 : 


Name: James 
Age 40 


3.4.6 可 变 长 度 参数 


在 Python 函数 中 还 可 以 定义 可 变 长 度 参 数 。 顾 名 思 义 ,可 变 长 度 参数 就 是 所 传 
入 参数 的 个 数 是 可 变 的 ,可 以 是 一 个 、 两 个 到 任意 个 ,也 可 以 是 0 个 。 
和 前 面 3 种 参数 不 同 , 可 变 长 度 参数 在 声明 时 不 会 全 部 命名 。 其 基本 语法 如 下 : 
>>> def functionname([formal args,] * var args tuple): 
""" 函 数 _ 文 档 字符 申 """ 


function suite 
return [expression] 
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注意 ,加 了 星 号 (* ) 的 变量 名 会 存放 所 有 未 命名 的 变量 参数 。 
可 变 长 度 参数 的 实例 如 下 : 
【 例 3-15】 可 变 长 度 参数 实例 。 
# 可 写 函 数 说 明 
>>> def printinfo(argl, * vartuple) : 
""" 打 印 任何 传人 的 参数 """ 

print(" 输 出 : ") 

print(argl) 

for var in vartuple: 


print(var) 
return 


# 调 用 printinfo( ) 函 数 
>>> printinfo(15) 
>>> printinfo(75, 65, 55) 


以 上 实例 的 输出 结果 : 


本 章 的 主要 内 容 分 为 两 个 部 分 。 在 第 一 部 分 介绍 了 Python 中 常见 的 数据 结构 ， 
包括 序列 (例如 列表 、 元 组 ) 、 映 射 ( 例 如 字典 ) 和 集合 等 ,主要 包括 序列 的 基本 概念 , 序 
列 的 各 种 方法 ,字符 串 的 两 种 重要 使 用 方式 (字符 串 格 式 化 与 字符 串 方法 ), 利 用 字典 
格式 化 字符 串 以 及 字典 的 用 法 ,集合 的 创建 .运算 和 方法 。 

在 第 二 部 分 介绍 了 自 定义 函数 的 基本 语法 、 几 种 形式 的 函数 参数 ,返回 值 。 自 定 
义 函 数 由 def 开头 , 接 下 来 确定 函数 名 、 形 参 的 类 型 数量 ,还 要 加 冒号 ,最 后 缩 进 写 入 
函数 体 。 形 参 是 可 选 的 ,可 有 可 无 ; 同样 ,函数 可 以 有 返回 值 ,也 可 以 没有 返回 值 ,其 
主要 通过 return 语句 返回 ,也 就 是 通过 return 语句 将 程序 的 控制 权 返 回 给 函数 的 调 
用 者 。Python 的 函数 具有 非常 灵活 的 参数 形态 , 既 可 以 实现 简单 的 调用 ,又 可 以 传 
入 非常 复杂 的 参数 。 函 数 参数 可 以 作为 位 置 参 数 或 者 关键 字 参 数 进行 传递 ,并 且 可 
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以 使 用 默认 参数 传递 ,以 及 使 用 可 变 长 度 参数 进行 传递 。 
习题 


1. 掌握 并 比较 不 同 数据 类 型 的 异同 。 

2. 利用 循环 创建 一 个 包含 100 个 偶数 的 列表 ,并 且 计算 该 列表 的 和 与 平均 值 。 
请 分 别 使 用 while 和 for 循环 实现 。 

3. 编写 一 个 函数 实现 根据 本 金 、 年 利率 、 存 款 年 限 计算 得 到 本 金 和 利息 的 功能 ， 
调用 这 个 函数 计算 10 000 元 本 金 在 银行 以 5.5% 的 年 利率 存 5 年 后 获得 的 本 金 和 利 
息 。 在 该 题 中 按 复 利 计算 利息 。 

4. 编写 一 个 函数 实现 判断 一 个 输入 的 数字 是 否 为 奇数 的 功能 。 

5. 编写 一 个 名 为 MakeTshirt() 的 函数 , 它 接受 一 个 尺码 以 及 要 印 到 工 了 上 的 字 
样 。 这 个 函数 应 打印 一 个 句子 ,概要 地 说 明 工 恤 的 尺码 和 字样 。 请 分 别 使 用 位 置 参 
数 和 关键 字 参 数 调 用 这 个 函数 来 制作 一 件 工 恤 。 


类 与 对 象 


本 章 学 习 目 标 : 

。 深刻 理解 Python 中 类 、 对 象 的 概念 ,掌握 它们 的 构造 和 使 用 

。 热 练 掌握 Python 面向 对 象 的 构造 函数 和 析 构 函数 ,以 及 运算 符 的 重 载 

。 理解 Python 类 的 继承 和 组 合 

。 熟练 掌握 Python 异常 处 理 机 制 和 内 置 异 常 类 

。 热 练 掌握 Python 自 定 义 异 常 的 方法 

本 章 首先 从 Python 类 和 对 象 的 定义 开始 讲解 ,详细 介绍 类 的 属性 、 方 法 ,以 及 构 
造 函 数 和 析 构 函数 ,然后 介绍 面向 对 象 的 方法 以 及 类 的 两 种 重用 技术 一 一 继承 和 组 
合 , 最 后 向 读者 介绍 异常 的 基本 概念 和 处 理 机 制 ,同时 介绍 自 定义 异常 的 方法 、With 
语句 和 断言 。 


4.1 面向 对 象 


面向 对 象 编程 的 英文 全 称 为 Object Oriented Programming ,简称 OOP, 它 是 一 种 
程序 设计 思想 。OOP 把 对 象 作 为 程序 的 基本 单元 ,一 个 对 象 包含 了 数据 和 操作 数据 
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的 函数 。 

面向 对 象 的 程序 设计 把 计算 机 程序 视 为 一 组 对 象 的 集合 ,而 每 个 对 象 都 可 以 接 
收 其 他 对 象 发 过 来 的 消息 ,并 处 理 这 些 消 息 , 计 算 机 程序 的 执行 就 是 一 系列 消息 在 各 
个 对 象 之 间 传 递 。 

例如 ,程序 中 包含 一 个 customer 对 象 和 一 个 account 对 象 ,而 customer 对 象 可 
能 会 向 account 对 象 发 送 一 个 消息 ,查询 其 银行 账目 。 每 个 对 象 都 包含 数据 以 及 操作 
这 些 数据 的 代码 ,即使 它们 不 了 解 彼 此 的 数据 和 代码 的 细节 ,对 象 之 间 依 然 可 以 相互 
作用 ,所 要 了 解 的 只 是 对 象 能 够 接受 的 消息 的 类 型 ,以 及 对 象 返 回 的 响应 的 类 型 , 虽 
然 不 同 的 人 会 以 不 同 的 方法 实现 它们 。 


4.1.1 面向 对 象 编程 


面向 对 象 编程 的 优点 是 易 维护 、. 易 复 用 、 易 扩展 ,由 于 面向 对 象 有 封 
装 、 继 承 . 多 态 的 特性 ,可 以 设计 出 低 耦 合 的 系统 ,使 系统 更 加 灵活 .更 加 
易于 维护 。 

在 Python 中 所 有 数据 类 型 都 可 以 视 为 对 象 , 当 然 用 户 也 可 以 自 定 义 对 象 。 自 定 
义 的 对 象 数据 类 型 就 是 面向 对 象 中 的 类 (Class) 的 概念 。 

如 果 采 用 面向 对 象 的 程序 设计 思想 ,大 家 首先 思考 的 不 是 程序 的 执行 流程 ,而 是 
Student 这 种 数据 类 型 应 该 被 视 为 一 个 类 ,这 个 类 拥有 name 和 score 两 个 属性 
(Property)。 如 果 要 打印 一 个 学 生 的 成 绩 ,首先 必须 创建 出 这 个 学 生 类 对 应 的 对 象 ， 
然后 给 对 象 发 一 个 print_score 消息 ,让 对 象 自己 把 自己 的 数据 打印 出 来 。 具 体 如 下 。 

【 例 4-1】 面向 对 象 示例 。 

class Student(object) : 

def init (self, name, score): 
self. name = name 
self. score = score 

def print_score(self) : 
print("%s: %s"% (self.name, self. score)) 

给 对 象 发 消息 实际 上 就 是 调用 对 象 对 应 的 关联 函数 ,一 般 称 之 为 对 象 的 方法 
(Method) 。 面 向 对 象 的 程序 写 出 来 就 像 这 样 : 


bart = Student("Bart Simpson"，59) 
lisa= Student("Lisa Simpson", 87) 
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bart. print_score() 
lisa. print_ score() 


面向 对 象 类 (Class) 和 实例 (Instance) 的 设计 思想 是 从 自然 界 中 来 的 。Class 是 
一 种 抽象 概念 ,比如 这 里 定义 的 Student 是 指 学 生 这 个 概念 ,而 实例 (Instance) 是 一 
个 个 具体 的 Student, 比 如 Bart Simpson 和 Lisa Simpson 是 两 个 具体 的 Student。 

所 以 ,面向 对 象 的 设计 思想 是 抽象 出 Class, 根 据 Class 创建 nstance。 面 向 对 象 
的 抽象 程度 要 比 函 数 高 ,因为 一 个 Class 既 包 含 数据 又 包含 操作 数据 的 方法 。 


4.1.2 类 的 抽象 与 封装 


对 象 包含 数据 以 及 操作 这 些 数据 的 代码 ,一 个 对 象 包含 的 所 有 数据 er 
和 代码 可 以 通过 类 构成 一 个 用 户 定义 的 数据 类 型 。 事 实 上 ,对 象 就 是 类 
类 型 (class type) 的 变量 ,一 旦 定义 了 一 个 类 ,就 可 以 创建 这 个 类 的 多 个 对 象 ,每 个 对 
象 与 一 组 数据 相关 ,而 这 组 数据 的 类 型 在 类 中 定义 。 因 此 ,一 个 类 就 是 具有 相同 类 型 
的 对 象 的 抽象 ,例如 柱 果 、 苹 果 和 橘子 都 是 fruit 类 的 对 象 。 类 是 用 户 定义 的 数据 类 
型 ,但 是 在 一 个 程序 设计 语言 中 , 它 和 内 建 的 数据 类 型 行为 相同 。 比 如 创建 一 个 类 对 
象 的 语法 和 创建 一 个 整数 对 象 的 语法 一 模 一 样 。 

把 数据 和 函数 装 在 一 个 单独 的 单元 ( 称 为 类 ) 的 行为 称 为 封装 。 数 据 封装 是 类 最 
典型 的 特点 。 数 据 不 能 被 外 界 访问 ,只 能 被 封装 在 同一 个 类 中 的 函数 访问 。 这 些 函 
数 提供 了 对 象 数据 和 程序 之 间 的 接口 。 避 免 数据 被 程序 直接 访问 的 概念 被 称 为 “ 数 
据 隐藏 ”。 

抽象 指 仅 表现 核心 的 特性 而 不 描述 背景 细节 的 行为 。 类 使 用 了 抽象 的 概念 ,并 
且 被 定义 为 一 系列 抽象 的 属性 ,例如 尺寸 .重量 和 价格 ,以 及 操作 这 些 属性 的 函数 。 
类 封装 了 将 要 被 创建 的 对 象 的 所 有 核心 属性 。 因 为 类 使 用 了 数据 抽象 的 概念 ,所 以 
它们 被 称 为 抽象 数据 类 型 (ADT)。 

封装 机 制 将 数据 和 代码 捆绑 到 一 起 ,避免 了 外 界 的 干扰 和 不 确定 性 。 它 同样 允 
许 创 建 对 象 。 简 单 地 说 ,一 个 对 象 就 是 一 个 封装 了 数据 和 操作 这 些 数据 的 代码 的 逻 
辑 实 体 。 

在 一 个 对 象 内 部 , 某 些 代 码 和 (或 ) 某 些 数据 可 以 是 私有 的 ,不 能 被 外 界 访问 。 通 
过 这 种 方式 ,对 象 对 内 部 数据 提供 了 不 同 级 别 的 保护 ,以 防止 程序 中 无 关 的 部 分 意外 


/ 78) Python 数 据 分 析 与 实践 | 


地 改变 或 错误 地 使 用 了 对 象 的 私有 部 分 。 

简 而 言 之 ,类 封装 了 一 系列 方法 ,并 且 可 以 通过 一 定 的 规则 约定 方法 访问 权限 。 
在 Python 中 没有 public、protected、private 之 类 的 访问 权限 控制 修饰 词 , Python 通过 
方法 名 约定 访问 权限 。 

例如 : 

(1) 普通 名 字 ,表示 public。 

(2) 以 _ 前 导 的 名 字 , 从 语法 上 视 为 public, 但 约定 俗称 的 意思 是 “可 以 被 访问 ,但 
请 视 为 private, 不 要 随意 访问 ”。 

(3) 以 __ 前 导 、 以 _ 后 级 的 名 字 , 特 殊 属性 ,表示 public。 

(4) 以 _ 前 导 ,、 不 以 _ 后 缀 的 名 字 , 表 示 private。 

private 名 字 不 能 被 继承 类 引用 。private 不 允许 通过 实例 对 象 直接 访问 ,本 质 上 
是 因为 private 属性 名 被 Python 解释 器 改 成 类 名 属性 名 了 ,因此 仍然 可 以 通过 类 名 
属性 名 访问 private 属性 ,但 是 不 同 版 本 的 Python 解释 器 改造 的 规则 不 一 致 ,通常 不 
建议 用 户 这 样 访问 private 属性 ,因为 代码 不 具有 可 移植 性 。 


4.2 认识 Python 中 的 类 、 对 象 和 方法 


4.2.1 类 的 定义 与 创建 


类 (Class) 可 以 看 作 是 类 别 或 者 种 类 的 同义词 。 在 Python 中 类 用 六 守 于 宪 
来 描述 具有 相同 属性 和 方法 的 对 象 的 集合 , 它 定义 了 该 集合 中 每 个 对 象 ” 视频 讲 角 
所 共有 的 属性 和 方法 。 使 用 类 几乎 可 以 模拟 任何 东西 。 

例如 ,设想 自己 正 走 在 大 街 上 ,从 身 前 跑 过 一 只 猫 , 猫 是 * 猜 类 ”的 实例 ,这 就 是 一 
个 有 很 多 子 类 的 一 般 类 ,从 自己 身 前 跑 过 的 猫 可 能 属于 子 类 * 波 斯 猫 类 ”。 这 里 可 以 
将 “ 猫 类 "想象 成 是 所 有 猫 的 集合 ,而 “波斯 猫 类 ”是 其 中 的 一 个 子 集 。 当 一 个 对 象 所 
属 的 类 是 另 一 个 对 象 所 属 类 的 子 集 时 就 称 前 者 为 后 者 的 子 类 (Subclass)。 所 以 …“ 波 
斯 猪 类 "是 “ 猫 类 "的 子 类 ; 相反 ,“ 猫 类 ”是 “波斯 猫 类 ”的 超 类 (Superclass)。 

这 里 的 猫 是 指 从 自己 身 前 跑 过 的 那 只 特定 的 猫 ,但 “ 猎 类 "或 者 "波斯 猫 类 "表示 
的 不 是 特定 的 猫 , 而 是 任何 猫 或 者 任何 波斯 猫 。 对 于 大 多 数 宠物 猫 , 大 家 都 了 解 些 什 
么 呢 ? 这 些 猫 都 有 年 龄 和 名 字 , 当 然 猫 还 会 打滚 和 下 蹲 。 因 为 猫 都 具有 上 述 两 项 信 
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息 ( 年 龄 和 名 字 ) 和 两 种 行为 (打滚 和 下 蹲 ) ,依据 这 些 ,就 可 以 创建 一 个 用 来 表示 猫 的 
简单 类 Cat。 

下 面 使 用 Python 中 的 类 定义 语言 来 创建 简单 类 Cat, 并 借 此 讲解 这 个 类 定义 函 
数 。 类 是 一 个 用 户 定 义 类 型 ,和 其 他 大 多 数 计 算 机 语言 一 样 ,Python 使 用 关键 字 
class 来 定义 类 。 函 数 的 语法 格式 如 下 : 


class classname: 
<statement—1> 


<statement— n> 


< statement-l > 与 < statement-n > 之 间 可 以 包含 任何 有 效 的 Python 语句 ,用 来 定 
义 类 的 属性 与 方法 。 下 面 创建 简单 类 Cat。 
【 例 4-2】 Cat 类 的 定义 。 


class Cat() : 
# 一 次 模拟 小 猫 的 简单 尝试 


def init (self, name, age): 
# 初 始 化 属性 name 和 age 


self. name = name 
self. age = age 


def sit(self): 

# 模 拟 小 猫 被 命令 下 蹲 

print(self.name.title() + "is now sitting.") 
def roll over(self): 

# 模拟 小 猫 被 命令 打滚 

print(self.name.title() + " rolled over!") 


通过 以 上 代码 就 可 以 创建 简单 类 Cat, 赋 予 每 只 小 猫 下 蹲 (sit()) 和 打滚 (roll_ 
over() ) 的 行为 。 

在 这 段 代码 中 ,用 class 定义 了 一 个 名 为 Cat 的 类 。 根 据 约定 ,在 Python 中 首 字 
母 大 写 的 名 称 指 的 是 类 。 在 本 代码 的 第 1 行 ,. 这 个 类 定义 中 的 括号 是 空 的 ,这 是 因为 
要 创建 一 个 空白 类 。 在 第 2 行 编写 了 一 个 文档 字符 串 ,对 这 个 类 的 功能 进行 了 描述 。 
从 第 4 行 开 始 ,在 类 中 定义 了 3 个 函数 ,类 中 的 函数 称 为 方法 。 前 面 学 过 的 有 关 函 数 
的 一 切 都 适用 于 方法 ,唯一 重要 的 差别 是 调用 方法 的 方式 不 同 。 第 1 个 方法 _init_ _() 
是 特殊 的 方法 ,每 当 用 户 根据 Cat 类 创建 新 实例 时 Python 都 会 自动 运行 它 。 这 里 将 
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__init __0O 〇 方法 定义 成 包含 3 个 形 参 , 即 self .name、age;, 形 参 self 必 不 可 少 , 还 必须 位 于 
其 他 形 参 的 前 面 。 那 么 为 什么 必须 在 方法 定义 中 包含 形 参 self 呢 ? 这 是 因为 Python 在 
调用 这 个 _init _O 〇 方法 创建 Cat 实例 时 将 自动 传人 实 参 self。 每 个 与 类 相关 联 的 方 
法 调用 都 自动 传递 实 参 self, 它 是 一 个 指向 实例 本 身 的 引用 ,让 实例 能 够 访问 类 中 的 
属性 和 方法 。 在 创建 Cat 实例 时 ,Python 将 调用 Cat 类 的 方法 _init__()。 程 序 将 通 
过 实 参 向 Cat 〇 传递 名 字 和 年 龄 ; self 会 自动 传递 ,因此 不 需要 手动 去 传递 它 。 每 当 
根据 Cat 类 创建 实例 时 都 只 需要 给 最 后 两 个 形 参 (name 和 age) 提 供 值 。 

第 6、7 行 定义 的 两 个 变量 都 有 前 级 self。 以 self 为 前 级 的 变量 可 供 类 中 的 所 有 
方法 使 用 ,还 可 以 通过 类 的 任何 实例 来 访问 这 些 变量 。self. name 王 name 获取 存储 在 
形 参 name 中 的 值 , 并 将 其 存储 到 变量 name 中 ,然后 该 变量 被 关联 到 当前 创建 的 实 
例 。self. age 一 age 的 作用 与 此 类 似 。 像 这 样 可 通过 实例 访问 的 变量 称 为 属性 。 

Cat 类 还 定义 了 另外 两 个 方法 , 即 sit() 和 roll_over()。 由 于 这 些 方法 不 需要 额 
外 的 信息 ,例如 名 字 或 年 龄 ,所 以 它们 只 有 一 个 形 参 self。 在 后 面 将 创建 的 实例 都 能 
够 访问 这 些 方法 , 换 句 话说 ,它们 都 会 下 蹲 和 打滚 。 当 前 ,sit() 和 roll _over() 所 做 的 
有 限 ,它们 只 是 打印 一 条 消息 ,指出 小 猫 正 下 蹲 或 打滚 。 用 户 可 以 扩展 这 些 方法 来 模 
拟 实际 情况 : 如 果 这 个 类 包含 在 一 个 计算 机 游戏 中 ,这 些 方法 将 包含 创建 小 猫 下 蹲 
和 打滚 动画 效果 的 代码 。 如 果 这 个 类 是 用 于 控制 机 器 猫 的 ,这 些 方法 将 引导 机 器 猫 
做 出 下 蹲 和 打滚 的 动作 。 

接 下 来 创建 一 个 表示 特定 小 猫 的 实例 。 首 先 可 以 将 类 视 作 有 关 如 何 创建 实例 的 
说 明 , 即 可 以 理解 成 Cat 类 是 一 系列 说 明 , 让 Python 知道 如 何 创建 一 个 表示 特定 小 
猫 的 实例 。 

【 例 4-3】 小 猫 实例 。 

my_cat = Cat("tommy", 3) 

print("my cat’s name is " +my cat. name. title() + ".") 

print("my cat is "+ str(my cat.age) + "years old.") 

这 里 使 用 的 是 前 一 个 示例 中 编写 的 Cat 类 。 在 第 1 行 代码 处 ,让 Python 创建 一 
只 名 字 为 tommy、 年 龄 为 3 的 小 猫 。 当 遇 到 这 行 代码 时 ,Python 使 用 实 参 "tommy" 
和 3 调用 Cat 类 中 的 方法 __init __O 〇 。 方法 __init__0O 〇 创建 一 个 表示 特定 小 猫 的 实例 ， 
并 使 用 外 部 提供 的 值 来 设置 属性 name 和 age。 方 法 __init__() 并 未 显 式 地 包含 
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return 语句 ,但 Python 自动 返回 一 个 表示 这 只 小 猫 的 实例 ,然后 将 这 个 实例 存储 在 
变量 my_cat 中 。 在 这 里 命名 约定 很 有 用 : 通常 可 以 认为 首 字 母 大 写 的 名 称 ( 例 如 
Cat) 指 的 是 类 ,而 小 写 的 名 称 (例如 my_cat) 指 的 是 根据 类 创建 的 实例 。 

在 本 节 前 面 创建 了 一 个 简单 的 Cat 类 ,并 在 方法 _init _O 〇 中 定义 了 name 和 age 
属性 。 如 果 要 访问 实例 的 属性 ,可 以 使 用 句点 表示 法 。 在 第 3 行 编写 了 如 下 代码 来 
访问 my_cat 的 name 属性 的 值 : 


my_cat. name 


句点 表示 法 在 Python 中 很 有 用 ,这 种 语法 演示 了 Python 语句 如 何 来 获得 属性 
的 值 。 例 如 在 这 个 示例 中 ,Python 先 找 到 my_cat 实例 ,再 查找 与 这 个 实例 相关 联 的 
name 属性 。 在 Cat 类 中 引用 这 个 属性 的 时 候 使 用 的 是 self. name。 在 代码 的 第 4 行 ， 
使 用 同样 的 方法 来 获取 age 属性 的 值 。 在 代码 的 第 1 个 print() 语 句 中 ,my_cat. 
name. title() 将 my_cat 的 name 属性 值 "tommy" 的 首 字母 改 成 大 写 的 'T'; 在 第 2 个 
print() 语 句 中 ,str(my_cat. age) 将 my_cat 的 age 属性 值 3 转换 成 字符 串 类 型 。 对 于 
上 述 示 例 ,my_cat 实例 的 输出 结果 如 下 : 


my cat’s name is Tommy. 
my cat is 3years old. 


4.2.2 构造 国 数 


在 4.1.1 的 示例 代码 中 已 经 使 用 到 类 中 的 一 个 特殊 方法 一 一 __init__(self,.…)， 
这 个 方法 被 称 为 构造 函数 ,用 来 初始 化 对 象 (实例 ) ,在 创建 新 对 象 时 调用 。__init__O 〇 
方法 在 类 的 一 个 对 象 (实例 ) 被 建立 时 马上 和 运行。 这 个 方法 可 以 用 来 对 用 户 的 对 象 做 
一 些 用 户 希 望 的 初始 化 。 构 造 函 数 属于 每 个 对 象 ,每 个 对 象 都 有 自己 的 构造 函数 。 
如 果 用 户 未 设计 构造 函数 ,Python 将 提供 一 个 默认 的 构造 函数 。 注 意 ,这 个 名 称 的 
开始 和 结尾 都 是 双 下 面 线 。 构 造 函 数 的 作用 有 两 个 : 一 是 在 内 存 中 为 类 创建 一 个 对 
象 ; 二 是 调用 类 的 初始 化 方法 来 初始 化 对 象 。 

【 例 4-4】 类 的 创建 和 实例 化 。 


class Person: 


def __init (self,name): 
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self. name = name 
def sayHi(self): 
print ("Hello, my name is", self. name) 
p= Person("python") 
p. sayHi() 


Hello, my name is python 


__init__0 〇 方法 定义 为 取 一 个 参数 name( 以 及 普通 的 参数 self) 。 在 这 个 __init__O) 
里 只 是 创建 一 个 新 的 域 ,也 称 为 name。 注 意 它们 是 两 个 不 同 的 变量 ,尽管 它们 有 相 
同 的 名 字 。 点 号 使 用 户 能 够 区 分 它们 。 最 重要 的 是 ,没有 专门 调用 _init__() 方 法 ， 
只 是 在 创建 一 个 类 的 新 实例 的 时 候 把 参数 包括 在 圆 括 号 内 跟 在 类 名 后 面 ,从 而 传递 
给 __init__0 〇 方法 。 这 是 这 种 方法 的 重要 之 处 。 


4.3 类 的 属性 


4.3.1 类 属性 和 实例 属性 


类 中 的 属性 分 为 两 种 ,一 是 类 属性 ,二 是 实例 属性 。 类 属性 是 在 类 中 方法 之 外 定 
义 的 ; 实例 属性 则 是 在 构造 函数 _init_() 中 定义 的 ,在 定义 时 以 self 为 前 缀 ,只 能 通 
过 对 象 名 访问 ,上 一 节 创 建 的 Cat 类 中 的 self. name 和 self. age 就 是 实例 属性 。 为 了 
更 好 地 讲解 类 属性 ,这 里 将 通过 对 上 一 节 中 创建 的 简单 类 Cat 的 属性 进行 增加 和 修 
改 来 说 明 。 类 属性 的 修改 和 增加 都 是 通过 “类 名 . 属性 名 ”的 方式 直接 进行 的 。 

下 面 创建 一 个 简单 的 类 Cat。 

【 例 4-5】 增加 类 属性 。 


class Cat(): 
# 一 次 模拟 小 猫 的 简单 尝试 


# 增 加 类 属性 
Reproduction way= "taisheng" 


Song_way = "miaomiao" 
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def init (self, name, age): 
井 初 始 化 name 和 age 属性 
self. name = name 
self.age = age 


def sit (self): 
# 模 拟 小 猫 被 命令 下 蹲 


print(self. name. title() + "is now sitting.") 


def roll over(self): 
# 模 拟 小 猫 被 命令 打滚 


print(self. name.title() + " rolled over!") 


上 面 的 代码 增加 了 两 个 类 属性 ,分 别 是 生育 后 代 的 方式 “taisheng” 以 及 叫 声 
“miaomiao”, 这 是 猫 类 的 共同 属性 。 


4.3.2 公有 属性 和 私有 属性 


在 默认 情况 下 ,程序 是 可 以 从 外 部 访问 一 个 对 象 的 特性 的 。 有 些 程序 员 认为 这 
样 做 是 可 以 的 ,有 些 程序 员 ( 比 如 SmallTalk 之 父 ,SmallTalk 的 对 象 特性 只 允许 由 同 
一 个 对 象 的 方法 访问 ) 认 为 这 样 做 是 不 可 以 的 ,觉得 这 样 做 就 破坏 了 封装 的 原则 。 他 
们 认为 对 象 的 状态 对 于 外 部 应 该 是 完全 隐藏 的 (不 可 访问 )。 可 能 会 有 人 感到 奇怪 ， 
为 什么 他 们 会 站 在 如 此 极端 的 立场 上 ,每 个 对 象 管理 自己 的 特性 还 不 够 吗 ? 为 什么 
还 要 对 外 部 世界 隐藏 呢 ? 毕竟 如 果 能 直接 使 用 将 会 更 方便 。 

关键 在 于 其 他 程序 员 可 能 不 知道 (可 能 也 不 应 该 知道 ) 用 户 的 对 象 内 部 的 具体 操 
作 。Python 并 不 直接 支持 私有 方式 ,而 是 靠 程序 员 自 己 把 握 在 外 部 进行 特性 修改 的 
时 机 。 上 毕竟 在 使 用 对 象 前 应 该 知道 如 何 使 用 ,但 是 可 以 用 一 些小 技巧 达到 私有 特性 
的 效果 。 

如 果 想 要 让 方法 或 者 特性 变 为 私 有 的 , 即 从 外 部 无 法 进行 访问 ,只 需要 在 它 的 名 
字 前 面 加 上 双 下 面 线 即 可 。 具 体 来 讲 , 以 _( 双 下 面 线 ) 开 头 的 属性 是 私有 属性 ,否则 
这 个 属性 就 是 公有 属性 。 私 有 属性 通过 “对 象 名 . 类 名 _ 私 有 成 员 名 ”进行 访问 ,不 能 
在 类 外 进行 直接 访问 。 举 例如 下 : 

【 例 4-6】 定义 私有 属性 。 


class Secret() : 
def unaccessiblel(self): 
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print ("Sorry , you can not accessible...") 

def accessible(self) : 
print ("Yes , you can accessible ,and the secret is ... ") 
self. unaccessible() 


现在 ,正如 在 这 个 例子 中 展示 的 ，_unaccessible() 是 无 法 从 外 界 进 行 访问 的 ,但 
是 从 类 的 内 部 还 是 能 够 进行 访问 的 (比如 从 accessibleO) 进 行 访问 ): 


>>> s = Secret() 
>>> s.__unaccessible() 


Traceback (most recent call last): 
File"< pyshell#112>", line 1, in? 
s.__unaccessible() 
AttributeError: Secretive instance has no attribute ' unaccessible' 
>>> s.accessible() 


运行 结果 : 


Yes , you can accessible ,and the secret is ... 
Sorry , you can not accessible ... 


双 下 面 线 虽然 有 些 奇 怪 ,但 看 起 来 像 是 其 他 编程 语言 中 的 标准 的 私有 方法 。 事 
实 上 真正 发 生 的 事情 是 不 标准 的 。 因 为 在 类 的 内 部 定义 中 ,所 有 以 双 下 面 线 开始 的 
命名 都 将 会 被 翻译 成 前 面 加 单 下 画 线 和 类 名 的 形式 。 例 如 : 


>>> Secret._Secret _unaccessible 
运行 结果 : 
< unbound method Secret.__unaccessible> 


总 体 来 说 , 想 要 确保 其 他 人 不 会 访问 对 象 的 方法 和 特性 是 不 可 能 的 ,但 是 像 这 类 
的 “名 称 变化 术 ? 就 是 他 们 不 应 该 访问 这 些 方法 或 者 特性 的 强 信号 。 

如 果 不 想 使 用 这 种 方法 ,但 是 又 想 让 其 他 对 象 不 能 访问 内 部 数据 ,那么 可 以 使 用 
双 下 画 线 。 虽 然 这 不 过 是 一 个 习惯 ,但 的 确 有 实际 效果 。 例 如 ,前 面 有 下 画 线 的 名 字 
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都 不 会 被 带 星 号 的 import 语句 “form module import * ”导入 。 

有 些 编程 语言 支持 多 种 层次 的 成 员 变 量 或 特性 私有 化 ,比如 在 Java 中 就 支持 
4 种 级 别 。 尽 管 单 、 双 下 面 线 在 某 种 程度 上 给 出 了 两 个 级 别 的 私有 性 ,但 是 Python 
并 没有 真正 的 私有 化 支持 。 


4.4 类 的 方法 


4.4.1 类 方法 的 调用 


在 这 里 仍旧 使 用 4. 2.1 小 节 中 创建 的 Cat 类 实例 ,在 创建 Cat 类 实例 后 就 可 以 使 
用 句点 表示 法 来 调用 Cat 类 中 定义 的 任何 方法 。 下 面 通过 让 小 猫 进行 下 蹲 和 打滚 的 
动作 来 展示 调用 方法 。 
【 例 4-7】 类 方法 调用 的 示例 。 
class Cat() : 
== snip == 
my_cat = Cat("tommy",3) 


my_cat._sit_() 
my_cat. roll _over() 


如 果 想 要 调用 类 中 的 方法 ,可 以 通过 指定 实例 的 名 称 ( 这 里 是 my_cat) 和 想 要 调用 的 
方法 ,并 用 句点 分 隔 它们 。 当 遇 到 代码 my_cat _sit_() 时 ,Python 在 Cat 类 中 查找 sit() 方 法 
并 运行 其 代码 块 。 同 样 ,Python 也 会 用 一 样 的 方式 解读 代码 my_cat. roll_over()。 


机 江 | 口 | 
4.4.2 类 方法 的 分 类 Ge 
在 类 中 可 以 根据 需要 定义 一 些 方法 ,定义 方法 使 用 def 关键 字 , 在 Es 
类 中 定义 的 方法 至 少 会 有 一 个 参数 ,一 般 以 名 为 “sel[” 的 变量 作为 该 参 
数 (用 其 他 名 称 也 可 以 ) ,而且 需要 作为 第 一 个 参数 。 在 Python 中 类 的 方法 大 致 可 以 
分 为 3 类 , 即 类 方法 .实例 方法 和 青 态 方法 。 
类 方法 是 类 对 象 所 拥有 的 方法 ,需要 用 修饰 器 “@classmethod” 来 标识 其 为 类 方 
法 。 它 能 够 通过 实例 对 象 和 类 对 象 去 访问 。 类 方法 的 用 途 就 是 可 以 对 类 属性 进行 修 
改 。 对 于 类 方法 ,第 一 个 参数 必须 是 类 对 象 ,一 般 以 “cls” 作 为 第 一 个 参数 。 举 例 


《86) Python 数据 分 析 与 实践 | 


如 下 : 
【 例 4-8】 类 方法 示例 。 


class people: 
country= "china" 
@classmethod 
def getCountry(cls) : 井 类 方法 
return cls. country 


实例 方法 是 在 类 中 最 常 定义 的 成 员 方 法 , 它 至 少 有 一 个 参数 ,并 且 必 须 以 实例 对 
象 作为 其 第 一 个 参数 ,一 般 以 名 为 “self” 的 变量 作为 第 一 个 参数 (注意 ,不 能 通过 类 对 
象 引 用 实例 方法 )。 举 例如 下 : 

【 例 4-9】 实例 方法 示例 。 


@classmethod 
def setCountry(cls, country): 
cls.country= country 
class InstanceMethod(object): 
def init (self, a): 
self.a=a 
def f1(self): 
print ("This is {0}". format(self)) 
def f2(self, a): 
print ("Value:{0}". format(a)) 


静态 方法 需要 通过 修饰 器 “@staticemethod” 来 进行 修饰 ,静态 方法 对 参数 没有 要 
求 ,不 需要 多 定义 参数 。 在 静态 方法 中 只 能 访问 属于 类 的 成 员 ,不 能 访问 属于 对 象 的 
成 员 , 而 静态 方法 也 只 能 通过 类 名 调用 。 举 例如 下 : 
【 例 4-10】 静态 方法 示例 。 
country= "china" 
@staticmethod 
def getcountry(): 
return people. country 
@staticmethod 


def setcountry(countryName): 
people. country = countryName 


对 于 这 3 种 不 同 的 方法 出 现 了 一 个 问题 : 既然 有 了 实例 方法 ,类 方法 和 静态 方法 
与 之 相 比 又 有 什么 好 处 呢 ? 具体 地 讲 , 在 类 方法 中 不 管 是 使 用 实例 还 是 类 调用 方法 ， 
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都 会 把 类 作为 第 一 个 参数 传递 进来 ,这 个 参数 就 是 类 本 身 。 如 果 继 承 了 这 个 使 用 类 
方法 的 类 , 则 该 类 的 所 有 子 类 都 会 拥有 这 个 方法 ,并 且 这 个 方法 会 自动 指向 子 类 本 
身 。 静 态 方法 是 和 类 与 实例 都 没有 关系 的 ,完全 可 以 使 用 一 般 方法 代替 ,但 是 使 用 静 
态 方法 可 以 更 好 地 组 织 代码 ,防止 代码 较 多 时 变 得 比较 混乱 。 类 方法 是 可 以 代替 静 
态 方法 的 。 静 态 方法 不 能 在 继承 中 修改 。 


4.4.3 析 构 函数 


在 Python 中 没有 专用 的 构造 和 析 构 函数 ,但 是 一 般 可 以 用 __init__() 和 
__del__O 〇 分 别 完 成 初始 化 和 删除 操作 ,因此 可 用 它们 代替 构造 和 析 构 函数 。 从 这 个 
意义 上 讲 ，_init _0 〇 方法 属于 Python 语言 的 构造 函数 ; _del__0 〇 方法 属于 Python 
语言 的 析 构 函数 , 它 在 对 象 消 逝 的 时 候 被 调用 ,用 来 释放 对 象 占用 的 资源 。 析 构 函 数 
在 对 象 就 要 被 垃圾 回收 之 前 调用 ,但 发 生 调用 的 具体 时 间 是 不 可 知 的 。 这 里 通过 一 
个 例子 来 说 明 Python 的 析 构 函数 ,举例 如 下 : 

【 例 4-11】 析 构 函数 示例 。 


class test(): 
def init (self): 
print("AAA") 
def del_ (self): 
print("BBB") 
def my(self) : 
print("CCC" ) 
>>> obj = test() 
有 RAR 
BBB 
>>> obj.my() 
CCC 
>>> del obj 
BBB 


上 述 例 子 中 的 _del__O 〇 函数 就 是 一 个 析 构 函数 了 , 当 使 用 del 删除 对 象 时 会 调 
用 它 本 身 的 析 构 函数 。 另 外 , 当 对 象 在 某 个 作用 域 中 调用 完毕 后 ,在 跳出 其 作用 域 的 
同时 析 构 函数 也 会 被 调用 一 次 ,这 样 可 以 用 来 释放 内 存 空 间 。__del__O 〇 也 是 可 选 


的 ,如 果 不 提供 , 则 Python 会 在 后 台 提 供 默 认 析 构 函 数 。 如 果 要 显 式 地 调用 析 构 函 
数 ,可 以 使 用 del 关键 字 , 方 式 如 下 : 
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del 对 象 名 


4.5 类 的 继承 


代码 重用 是 软件 工程 的 重要 目标 之 一 ,类 的 重用 是 面向 对 象 的 核心 内 容 之 一 ,在 
编写 类 时 并 非 总 是 要 重新 开始 。 如 果 用 户 要 编写 的 类 是 另 一 个 现成 类 的 特殊 版 本 ， 
可 以 使 用 继承 ,在 这 个 现成 类 的 基础 上 创建 新 类 ,在 所 创建 的 新 类 中 通过 添加 代码 来 
扩展 现成 类 的 属性 和 方法 ,这 样 不 仅 能 够 减少 工作 量 , 而 且 能 降低 出 现 错误 的 可 


4.5.1 父 类 与 子 类 


当 一 个 类 继承 另 一 个 类 时 , 它 将 自动 获得 另 一 个 类 的 所 有 属性 和 方法 , 原 有 的 类 
称 为 基 类 、 父 类 或 超 类 (Baseclass、Superclass) ,而 新 类 称 为 子 类 (Subclass)。 子 类 继 
承 了 其 父 类 的 所 有 属性 和 方法 ,同时 还 可 以 定义 自己 的 属性 和 方法 。 

接 下 来 给 出 更 详细 的 定义 , 父 类 是 指 被 直接 或 间接 继承 的 类 。 在 Python 中 
object 类 是 所 有 类 的 直接 或 间接 父 类 。 在 继承 关系 中 ,继承 者 是 被 继承 者 的 子 类 。 
子 类 继承 所 有 祖先 的 非 私 有 属性 和 非 私 有 方法 , 子 类 也 可 以 增加 新 的 属性 和 方法 , 子 
类 还 可 以 通过 重 定义 覆盖 从 父 类 中 继承 而 来 的 方法 。 


4.5.2 继承 的 语法 


对 于 继承 的 语法 ,下 面 通过 一 个 实例 来 展示 说 明 。 

例如 已 经 编写 了 一 个 名 为 Animal 的 Class, 有 一 个 run() 方 法 可 以 
直接 打印 。 

【 例 4-12】 Animal 继承 。 


class Animal (object): 
def run(self): 
print("Animal is running...") 


当 需 要 编写 Dog 和 Cat 类 时 就 可 以 直接 从 Animal 类 继承 : 
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class Dog(Animal): 
pass 

class Cat(Animal): 
pass 


对 于 Dog 来 说 , Animal 就 是 它 的 父 类 ; 对 于 Animal 来 说 ,Dog 就 是 它 的 子 类 。 
Cat 和 Dog 类 似 。 在 创建 子 类 时 , 父 类 必须 包含 在 当前 文件 中 , 且 位 于 子 类 前 面 。 这 
里 定义 了 子 类 Dog 和 Cat。 在 定义 子 类 时 ,必须 在 括号 内 指定 父 类 的 名 称 。 

那么 继承 有 什么 好 处 ? 最 大 的 好 处 是 子 类 获得 了 父 类 的 全 部 功能 。 由 于 
Animal 实现 了 run() 方 法 ,因此 Dog 和 Cat 作为 它 的 子 类 什么 事 也 没 干 就 自动 拥有 
了 run() 方 法 : 


继承 的 第 二 个 好 处 需要 用 户 对 代码 做 一 点 改进 。 大 家 可 以 看 到 ,无 论 是 Dog 还 
是 Cat, 它 们 在 run() 的 时 候 显示 的 都 是 Animal is running.… ,符合 逻辑 的 做 法 是 分 别 
显示 Dog is running... 和 Cat is running... ,因此 对 Dog 和 Cat 类 改进 如 下 : 
class Dog(Animal ): 
def run(self): 
print("Dog is running...") 


class Cat (Animal): 
def run(self): 
print("Cat is running...") 


再 次 运行 ,结果 如 下 : 


Dog is running... 
Cat is running... 
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当 子 类 和 父 类 存在 相同 的 run() 方 法 时 , 子 类 的 run() 覆 盖 父 类 的 run() ,在 代码 
运行 时 总 是 会 调用 子 类 的 run() 。 

当然 ,用 户 也 可 以 给 子 类 增加 一 些 方法 ,比如 Dog 类 : 

class Dog(Rnimal) : 


def run(self) : 
print("Dog is running...") 


def eat(self): 
print("Eating meat...") 


4.5.3 多 重 继承 


继承 是 面向 对 象 编程 的 一 个 重要 方式 ,因为 通过 继承 , 子 类 就 可 以 扩展 父 类 的 
功能 。 

这 里 想 一 下 Animal 类 层次 的 设计 ,假设 要 实现 Dog( 狗 ).Bat( 蝙 蝠 )\.Parrot( 鹦 
赵 ).Ostrich( 能 鸟 )4 种 动物 ,如 果 按 照 哺 乳 动 物 和 鸟 类 归 类 ,可 以 设计 出 如 下 类 
层次 。 

。 哺乳 类 : 能 跑 的 哺乳 类 ,能 飞 的 哺乳 类 。 

。 鸟 类 : 能 跑 的 鸟 类 ,能 飞 的 鸟 类 。 

如 果 要 再 增加 “宠物 类 ”和 * 非 宠物 类 ”, 那 么 类 的 数量 会 呈 指 数 增 长 ,很 明显 这 样 
设计 是 不 行 的 ,正确 的 做 法 是 采用 多 重 继承 。 首 先 , 主 要 的 类 层次 仍 按照 哺 乳 类 和 鸟 
类 设计 。 

【 例 4-13】 多 重 继承 示例 。 


class Animal (object): 
pass 

# 大 类 

class Mammal (Animal ): 
pass 

class Bird(Animal): 
pass 

井 各 种 动物 

class Dog(Mammal) : 
pass 

class Bat(Mammal) : 
pass 
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class Parrot (Bird): 
pass 

class Ostrich(Bird): 
pass 


现在 要 给 动物 加 上 Runnable 和 Flyable 的 功能 ,只 需要 先 定义 好 Runnable 和 
Flyable 的 类 即 可 : 
class Runnable(object) : 
def run(self) : 
print("Running...") 
class Flyable(object): 
def fly(self): 
print("Flying...") 


对 于 需要 Runnable 功能 的 动物 ,就 多 继承 一 个 Runnable, 例 如 Dog: 


class Dog(Mammal, Runnable): 
pass 


对 于 需要 Flyable 功能 的 动物 ,就 多 继承 一 个 Flyable, 例 如 Bat: 


class Bat (Mammal, Flyable): 
pass 


通过 多 重 继承 ,一 个 子 类 就 可 以 同时 获得 多 个 父 类 的 所 有 功能 。 

在 设计 类 的 继承 关系 时 ,通常 主线 都 是 单一 继承 下 来 的 ,例如 Ostrich 继承 自 
Bird。 但 是 ,如 果 需 要 “混入 ”额外 的 功能 ,通过 多 重 继 承 就 可 以 实现 ,比如 让 Ostrich 
除了 继承 自 Bird 外 ,再 同时 继承 Runnable。 这 种 设计 通常 称 为 Mixin。 

为 了 更 好 地 看 出 继承 关系 ,把 Runnable 和 Flyable 改 为 RunnableMixin 和 
FlyableMixin。 类 似 地 ,用 户 还 可 以 定义 出 肉食 动物 CarnivorousMixin 和 植 食 动 物 
HerbivoresMixin, 让 某 个 动物 同时 拥有 几 个 Mixin: 


class Dog(Mammal, RunnableMixin，CarnivorousMixin) : 
pass 


Mixin 的 目的 就 是 给 一 个 类 增加 多 个 功能 ,这 样 在 设计 类 的 时 候 可 以 优先 考虑 
通过 多 重 继承 来 组 合 多 个 Mixin 的 功能 ,而 不 是 设计 多 层次 的 复杂 的 继承 关系 。 
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Python 自 带 的 很 多 库 也 使 用 了 Mixin。 举 个 例子 ,Python 自 带 了 TCPServer 和 
UDPServer 这 两 类 网 络 服务 , 若 要 同时 服务 ,多 个 用 户 就 必须 使 用 多 进程 或 多 线程 模 
型 ,这 两 种 模型 由 ForkingMixin 和 ThreadingMixin 提供 。 通 过 组 合 ,用 户 就 可 以 创 
造 出 合适 的 服务 。 

这 样 ,用 户 不 需要 复杂 而 庞大 的 继承 链 ,只 要 选择 组 合 不 同 的 类 的 功能 ,就 可 以 
快速 构造 出 所 需 的 子 类 。 


4.5.4 运算 符 的 重 载 


在 Python 类 中 可 以 重 写 某 些 运算 符 的 方法 函数 ,例如 类 中 提供 了 __add__O 〇 这 
个 钩子 函数 , 当 调 用 "十 ”( 加 法 ) 运 算 时 ,实际 上 是 调用 了 __add__“() 钩 子 函 数 ,用 户 在 
类 中 可 以 重 写 这 些 钧 子 函数 。 

在 Python 中 带 有 前 /后 绥 、 双 下 画 线 的 方法 函数 称 为 钩子 函数 ,钩子 函数 具有 以 
下 特征 : 

(1) 多 数 钩子 函数 均 可 在 类 中 被 重 写 。 

(2) 钩子 函数 无 预 设 值 。 

(3) 相应 运算 符 调 用 时 会 自动 映射 调用 这 些 钩子 函数 。 

表 4. 1 列举 了 一 些 常见 的 运算 符 重 载 方法 。 


表 4.1 常见 的 运算 符 重 载 方法 


method overload call 
__init _() 构造 函数 对 象 创建 : X=Class(args) 
_del_0O 析 构 函数 X 对象 收回 
__add_() 运算 符 十 和 
or _() 运算 符 | XIY.X|=Y 
__repr_()、str_() 打印 .转换 print(X) ,repr(X) .str(X) 
_call_0O 函数 调用 XCx args，x#x kwargs) 
__getattr_() 点 号 运算 X. undefined 
__setattr_() 属性 赋值 X. any= value 
__delattr _() 属性 删除 delX. any 
__getattribute__() 属性 获取 X.any 
__getitem _() 索引 运算 X[key],，X[i:j] 
__setitem__() 索引 赋值 X[key], X[i:j]=sequence 
__delitem _() 索引 和 分 片 删除 del X[key], del X[i:j] 
_len_0O 长 度 len(X) 
__bool_©O 布尔 测试 bool(X) 
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续 表 
method overload call 
ee 二 
_le (0O、ge_(O、 特定 的 比较 X==Y.X!=Y 
Re 
_radd _0O 右 侧 加 法 other+X 
_iadd _(O) 实地 (增强 的 ) 加 法 X+ 二 Y( 或 _add _0O 〇 0) 
__iter_()、 next_() 迭代 环境 I=iter(X), next() 
__contains_() 成 员 关 系 测试 item in X( 任 何 可 迭代) 
__index__() 整数 值 hex(X) bin(X) .oct(X) 
__enter_()、 exit _() 环境 管理 器 withobj as var: 
__get__()、_set_ _(),、 delete_() 描述 符 属性 X. attr，X. attr 一 value，del X. attr 
__new__(O) 创建 在 _init_() 之 前 创建 对 象 
4.6 类 的 组 合 


前 面 讲 了 面向 对 象 与 类 的 继承 ,大 家 知道 了 继承 是 一 种 “什么 是 什么 ”的 关系 。 
然而 类 与 类 之 间 还 有 另 一 种 关系 , 那 就 是 组 合 ,这 是 类 的 另 一 种 重用 方式 。 如 果 程 序 
中 的 类 需要 使 用 一 个 其 他 对 象 ,就 可 以 使 用 类 的 组 合 方式 。 在 Python 中 ,一 个 类 可 
以 包含 其 他 类 的 对 象 作为 属性 ,这 就 是 类 的 组 合 。 

下 面 看 一 个 例子 , 先 定义 一 个 老师 类 ,老师 类 有 名 字 、 年 龄 .出 生 的 年 /月 /日 .所 
教 的 课程 等 特征 以 及 走路 和 教书 的 技能 。 

【 例 4-14】 类 组 合 示例 。 

class Teacher: 

def init (self,name,age,year,mon,day): 
self. name = name 
self.age = age 
self. year = year 


self. mon = mon 
self.day= day 


def walk( self): 
print("%s is walking slowly" % self. name) 


def teach(self): 
print("%s is teaching" % self. name) 
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再 定义 一 个 学 生 类 ,学 生 类 有 名 字 ,年 龄 .出生 的 年 /月 /日 、 学 习 的 组 名 等 特征 以 
及 走路 和 学 习 的 技能 : 


class Student: 
def init (self,name,age,year,mon,day): 
self. name = name 
self.age = age 
self. year = year 
self. mon = mon 
self. day = day 


def walk( self): 
print("$%s is walking slowly" % self. name) 


def study( self): 
print("%s is studying" % self. name) 


根据 类 的 继承 这 个 特性 ,可 以 把 代码 缩减 一 下 。 首 先 定义 一 个 人 类 ,然后 让 老师 
类 和 学 生 类 继承 人 类 的 特征 和 技能 : 


class People: 
def init (self,name,age, year,mon,day): 
self. name = name 
self.age = age 
Self. year = year 
self. mon = mon 
self. day = day 


def walk( self): 
print("%s is walking" % self. name) 
class Teacher (People): 
def init (self,name,age, year,mon, day,course): 
People. init (self,name,age,year,mon,day) 
self. course = course 


def teach( self): 
print("%s is teaching" % self. name) 
class Student (People): 
def init (self,name,age,year,mon,day,group): 
People. init (self,name,age, year,mon,day) 
self. group = group 


def study(self): 
print("%s is studying" % self. name) 
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再 对 老师 和 学 生 进 行 实例 化 ,得 到 一 个 老师 和 一 个 学 生 : 


tl = Teacher("alex", 28, 1989,9,2,"python") 
sl = Student ("jack", 22,1995, 2,8, "group2") 


现在 想 知道 t1 和 sl 的 名 字 、 年 龄 .出 生 的 年 /月 /日 都 很 容易 ,但 是 想 一 次 性 打印 
出 tl 或 sl 的 生日 就 不 那么 容易 了 ,这 时 需要 用 字符 串 进 行 拼接 ,有 没有 什么 更 好 的 
办 法 呢 ? 

有 , 那 就 是 组 合 。 

继承 是 一 个 子 类 与 一 个 父 类 的 关系 ,而 组 合 是 一 个 类 与 另 一 个 类 的 关系 。 
[以 说 每 个 人 都 有 生日 ,而 不 能 说 人 是 生日 ,这 样 就 要 使 用 组 合 的 功能 。 
1 以 把 出 生 的 年 /月 /日 再 另外 定义 一 个 日 期 的 类 ,然后 用 老师 或 者 学 生 类 与 这 
个 日 期 的 类 组 合 起 来 ,就 可 以 很 容易 地 得 出 老师 tl 或 者 学 生 sl 的 生日 ,再 也 不 用 字 
符 串 拼接 那么 麻烦 。 请 看 下 面 的 代码 : 


=| 


| 


class Date: 
def init (self,year,mon,day): 
self. year = year 
self. mon = mon 
self. day = day 


def birth_info(self) : 
print("The birth is %s—- %s— Ss"%(self.year, self. mon, self. day)) 


class People: 
def __init (self,name,age, year,mon, day) : 
self. name = name 
self.age = age 
self. birth = Date(year, mon, day) 


def walk(self) : 
print("%s is walking" % self. name) 


class Teacher (People): 
def __init (self,name,age,year,mon,day,course): 
People. init (self,name,age, year,mon,day) 
self. course = course 


def teach(self) : 
print("%s is teaching" % self. name) 


class Student (People): 
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def init (self,name,age, year,mon,day,group): 
People. init (self,name,age,year,mon,day) 
self. group = group 
def study(self) : 
Print("% s is studying" % self. name) 
tl = Teacher("alex", 28,1989,9,2, "python") 
sl1 = Student ("jack", 22,1995,2,8,"group2") 
这 样 一 来 ,就 可 以 使 用 跟前 面 一 样 的 方法 来 调用 老师 tl 或 学 生 sl 的 姓名 、 年 龄 
等 特征 以 及 走路 ,教书 或 者 学 习 的 技能 : 
print(t1. name) 


t1.walk() 
t1. teach() 


输出 为 : 


alex 
alex is walking 
alex is teaching 


那么 怎么 能 够 知道 他 们 的 生日 呢 ? 可 以 如 下 : 
print(t1. birth) 


输出 为 : 


<__main__.Date object at 0x0000000002969550 > 


这 个 birth 是 子 类 Teacher 从 父 类 People 继承 过 来 的 ,而 父 类 People 的 birth 又 
是 与 Date 类 组 合 在 一 起 的 ,所 以 这 个 birth 是 一 个 对 象 。 在 Date 类 下 面 有 一 个 birth_ 
info 的 技能 ,这 样 就 可 以 通过 调用 Date 下 面 的 birth_info() 这 个 函数 属性 来 知道 老师 
tl 的 生日 了 : 


t1.birth. birth info() 


得 到 的 结果 为 : 
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The birth is 1989 一 9 一 2 
如 果 想 知道 学 生 sl 的 生日 ,使 用 同样 的 方法 : 
s1.birth. birth_info() 
得 到 的 结果 为 : 
The birth is 1995 一 2 一 8 


组 合 就 是 在 一 个 类 中 使 用 到 另 一 个 类 ,从 而 把 几 个 类 拼 到 一 起 。 组 合 是 为 了 减 


少 重复 代码 。 


在 实际 的 项 目 开发 过 程 中 ,如 果 只 使 用 继承 和 组 合 中 的 一 种 技术 ,是 很 难 满足 实 


际 需求 的 ,所 以 在 实际 的 开发 过 程 中 开发 人 员 通 常会 将 两 种 技术 结合 起 来 使 用 。 


4.7 类 的 异常 处 理 


异常 处 理 在 任何 一 门 编程 语言 里 都 是 被 关注 的 一 个 话题 ,良好 的 异常 处 理 可 以 


让 程序 更 加 健壮 ,清晰 的 错误 信息 更 能 帮助 程序 开发 人 员 快 速 修复 问题 。 在 Python 
中 ,和 部 分 高 级 语言 一 样 ,使 用 了 try/except 语句 块 来 处 理 异 常 ,如 果 用 户 有 其 他 编 
程 语言 的 经 验 ,实践 起 来 并 不 难 。 


4.7.1 异常 


异常 即 是 在 程序 执行 过 程 中 发 生 的 影响 程序 正常 运行 的 一 个 事件 ,该 事件 会 在 


程序 执行 过 程 中 发 生 , 影 响 了 程序 的 正常 执行 。 一 般 情况 下 ,在 Python 无 法 正常 处 
理 程序 时 就 会 发 生 一 个 异常 。 异 常 是 Python 对 象 ,表示 一 个 错误 。 当 Python 脚本 
发 生 异常 时 我 们 需要 捕获 处 理 它 ,否则 程序 会 终止 执行 。 异 常 处 理 使 程序 能 够 处 理 
完 异常 后 继续 它 的 正常 执行 ,不 至 于 使 程序 因 异 常 导致 退出 或 崩溃 。 


举 一 个 具体 的 例子 : 打开 一 个 不 存在 的 文件 。 代 码 如 下 : 
【 例 4-15】 异常 举例 。 


fr = open("/not there", "r") 
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运行 结果 : 


Traceback (most recent call last): 
File "tiaoshi005. py", line 1，in < module> 
fr = open("/notthere", "r") 
FileNotFoundError: [Errno 2] No such file or directory: '/not there' 


例子 中 的 代码 视图 打开 一 个 不 存在 的 文件 ,运行 之 后 , 抛 出 FileNotFoundError 
异常 。 


4.7.2 Python 中 的 异常 类 


Python 程序 出 现 异常 时 将 抛 出 一 个 异常 类 的 现象 。Python 中 所 有 的 异常 类 的 
根 类 都 是 BaseException 类 ,它们 都 是 BaseException 的 直接 或 间接 子 类 。 大 部 分 常 
规 异 常 类 的 基 类 是 Exception 的 子 类 。 

不 管 程序 是 否 正常 退出 ,都 将 引发 SystemExit 异常 。 例 如 ,在 代码 中 的 某 个 位 
置 调用 了 sys. exit() 函 数 时 将 触发 SystemExit 异常 。 利 用 这 个 异常 ,可 以 阻止 程序 
退出 或 让 用 户 确认 是 否 真 的 需要 退出 程序 。 

表 4.2 列 出 了 Python 中 内 置 的 标准 异常 类 , 自 定 义 异 常 类 都 是 继承 自 这 些 标准 


异常 类 。 
表 4.2 Python 内 置 的 标准 异常 类 
异常 名 称 描 述 

BaseException 所 有 异常 的 基 类 
SystemExit 解释 器 请 求 退出 
KeyboardInterrupt 用 户 中 断 执行 (通常 是 输入 ^C) 
Exception 常规 错误 的 基 类 
StopIteration 迭代 器 没有 更 多 的 值 
GeneratorExit 生成 器 (generator) 发 生 异 常 来 通知 退出 
StandardError 所 有 的 内 建 标准 异常 的 基 类 
ArithmeticError 所 有 数值 计算 错误 的 基 类 
FloatingPointError 浮 点 计算 错误 
OverflowError 数值 运算 超出 最 大 限制 
ZeroDivisionError 除 (或 取 模 ) 零 (所 有 数据 类 型 ) 
AssertionError 断言 语句 失败 
AttributeError 对 象 没有 这 个 属性 
EOFError 没有 内 建 输入 ,到 达 EOF 标记 
EnvironmentError 操作 系统 错误 的 基 类 
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续 表 
异常 名 称 描 述 
IOError 输入 /输出 操作 失败 
OSError 操作 系统 错误 
WindowsError 系统 调用 失败 
ImportError 导入 模块 /对 象 失败 
LookupError 无 效 数 据 查 询 的 基 类 
IndexError 序列 中 没有 此 索引 (index) 
KeyError 映射 中 没有 这 个 键 
MemoryError 内 存 溢出 错误 (对 于 Python 解释 器 不 是 致命 的 ) 
NameError 未 声明 /初始 化 对 象 (没有 属性 ) 
UnboundLocalError 访问 未 初始 化 的 本 地 变量 
ReferenceError 弱 引 用 (Weak reference) 试 图 访问 已 经 垃圾 回收 了 的 对 象 
RuntimeError 一 般 的 运行 时 错误 
NotImplementedError 尚未 实现 的 方法 
SyntaxError Python 语法 错误 
JIndentationError 缩 进 错误 
TabError Tab 和 空格 混用 
SystemError 一 般 的 解释 器 系统 错误 
TypeError 对 类 型 无 效 的 操作 
ValueError 传人 无 效 的 参数 
UnicodeError Unicode 相关 的 错误 
UnicodeDecodeError Unicode 解码 时 错误 
UnicodeEncodeError Unicode 编码 时 错误 
UnicodeTranslateError Unicode 转换 时 错误 
Warning 警告 的 基 类 
DeprecationWarning 关于 被 弃 用 的 特征 的 警告 
FutureWarning 关于 构造 将 来 语义 会 有 改变 的 警告 
OverflowWarning 旧 的 关于 自动 提升 为 长 整 型 (long) 的 警告 
PendingDeprecationWarning 关于 特性 将 会 被 废弃 的 警告 
RuntimeWarning 可 疑 的 运行 时 行为 (runtime behavior) 的 警告 
SyntaxWarning 可 疑 的 语法 的 警告 
UserWarning 用 户 代码 生成 的 警告 


4.7.3 捕获 与 处 理 异 常 


捕捉 异常 通常 使 用 try/except 语句 。 
try/except 语句 用 来 检测 try 语句 块 中 的 错误 ,从 而 让 except 语句 捕获 异常 信息 
并 处 理 。 如 果 用 户 不 想 在 异常 发 生 时 结束 程序 ,只 需 在 try 里 捕获 它 。 
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以 下 为 简单 的 try...except 的 语法 : 


es 

< 语句 > # 运 行 别 的 代码 

except < 和 名字 >: 

< 语句 > 井 如 果 在 try 部 分 引发 了 'name' 异 常 
except < 名 字 >, < 数据 >: 

< 语句 > 并 如 果 引 发 了 'name' 异 常 ,获得 附加 的 数据 


当 开 始 一 个 try 语句 后 ,Python 就 在 当前 程序 的 上 下 文中 作 标 记 , 这 样 当 异 常 出 
现时 就 可 以 回 到 这 里 ,try 子 句 先 执行 , 接 下 来 会 发 生 什么 依赖 于 执行 时 是 否 出 现 
异常 。 

如 果 当 try 后 的 语句 执行 时 发 生 异 常 ,Python 就 跳 回 到 try 并 执行 第 一 个 匹配 该 
异常 的 except 子 句 ,异常 处 理 完毕 ,控制 流 就 通过 整个 try 语句 (除非 在 处 理 异常 时 
又 引发 新 的 异常 )。 

如 果 在 try 后 的 语句 里 发 生 了 异常 , 却 没 有 匹配 的 except 子 句 ,异常 将 被 递交 到 
上 层 的 try, 或 者 到 程序 的 最 上 层 ( 这 样 将 结束 程序 ,并 打印 默认 的 出 错 信息 )。 

如 果 在 try 子 句 执 行 时 没有 发 生 异 常 ,Python 将 执行 else 语句 后 的 语句 (如 果 有 
else) ,然后 控制 流通 过 整个 try 语句 。 

当然 也 可 以 不 带 任 何 异常 类 型 使 用 except, 示 例如 下 : 

try: 

正常 的 操作 
Ca 
发 生 异 常 ,执行 这 块 代码 


else: 


如 果 没 有 异常 执行 这 块 代码 


以 上 方式 try-except 语句 捕获 所 有 发 生 的 异常 。 但 这 不 是 一 个 很 好 的 方式 ,我 
们 不 能 通过 该 程序 识别 出 具体 的 异常 信息 ,因为 它 捕获 所 有 的 异常 。 

接 下 来 ,将 结合 4.7.1 节 中 的 例子 具体 讲述 一 下 try-except 语句 的 使 用 方法 。 在 
4.7.1 节 中 举 了 一 个 打开 不 存在 文件 ,然后 抛 出 FileNotFoundError 异常 的 例子 ,下 
面 就 使 用 try-except 语句 来 进行 异常 捕获 和 处 理 。 
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【 例 4-16】 try-except 语句 的 使 用 。 


try: 
fr= open("/notthere") 
exceptFileNotFoundError: 
print("This file is not exist!") 


运行 结果 : 
This file is not exist! 


同时 ,再 利用 一 个 例子 来 阐述 try-except-else 语句 的 使 用 方法 ,具体 如 下 : 
【 例 4-17】 try-except-else 语句 的 使 用 。 

1 

本 
nn 


asserta<b 
d=at+b 
except AssertionError as e: 
print ( "a<b" ) 
except TypeError as e: 
print (e) 
else : 
print ( "Program execution successful" ) 


运行 结果 如 下 : 
Program execution successful 


在 这 个 代码 块 中 ,尝试 捕获 处 理 两 个 异常 ,分 别 是 AssertionError 异常 和 
TypeError 异常 。 但 是 ,程序 运行 顺利 ,没有 发 生 异 常 ,所 以 执行 else 语句 。 

下 面 将 通过 例子 的 讲述 对 异常 处 理 做 进一步 的 讲解 。 

该 案例 是 一 个 猜 数 字 游 戏 , 先 看 一 下 最 简单 的 猪 数字 的 游戏 ,随机 取 1 一 10 ,然后 
让 游戏 者 猜 。 代 码 如 下 : 

【 例 4-18】 猜 数 字 游 戏 。 


import random 
num = random. randint(1,10) 


(102) Python 数据 分 析 与 实践 | 


while True: 

guess = int(raw_input( 'Enter 1~10')) 

if guess > num: 
print("guess Bigger : ",guess) 

elif guess < num: 
print("guess Smaller : ",guess) 

else: 
print("Great, You guess correct. game over !") 
Break 


运行 之 后 的 结果 如 下 : 


>>> Enter 1~10:5 

guess Bigger: 5 

>>> Enter 1~10:3 

guess Bigger: 3 

>>> Enter 1~10:2 

guess Bigger: 2 

>>> Enter 1~10:1 

Great, You guess correct. Game Over 


这 个 是 没有 异常 保护 的 ,车 ] 
字 , 那 就 会 有 问题 了 : 


: 常 输入 没有 问题 ,但 是 若 恶 意 输 入 abc 或 者 是 非 数 


>>> Enter 1 一 10:aa 
ValueError: invalid literal for int() with base 10: 'abc'" 


所 以 要 加 入 异常 处 理 , 具 体 如 下 : 


import random 
num = random. randint(1,10) 
while True: 
try: 
guess = int(raw_input( 'Enter 1~10')) 
except Exception, e: 
print("Input error!Please enter num :1 一 10") 
continue 
if guess > num: 
print ("guess Bigger : ",guess) 
elif guess < num: 
print ("guess Smaller : ",guess) 
else: 
print("Great, You guess correct. game over !") 
Break 
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在 以 上 代码 中 加 入 了 异常 处 理 语句 ,这 样 在 输入 非 数 字 的 时 候 , 程 序 就 可 以 捕获 
该 错误 ,保证 程序 的 正常 运行 。 


4.7.4 ” 自 定义 异常 类 


通过 创建 一 个 新 的 异常 类 ,程序 可 以 命名 自己 的 异常 。 自 定义 异常 应 该 是 通过 
直接 或 间接 的 方式 继承 自 典 型 的 Exception 类 。 

以 下 为 与 RuntimeError 相关 的 实例 ,在 实例 中 创建 了 一 个 类 , 基 类 为 RuntimeError， 
用 于 在 异常 触发 时 输出 更 多 的 信息 。 在 try 语句 块 中 ,用 户 自 定义 的 异常 后 执行 
except 块 语句 ,变量 e 是 用 于 创建 Networkerror 类 的 实例 。 

【 例 4-19】 自 定义 异常 类 举例 。 


classNetworkerror(RuntimeError): 
def init (self, arg): 
self.args = arg 


在 定义 以 上 类 后 ,可 以 触发 该 异常 ,如 下 所 示 : 


try: 

raise Networkerror("Bad hostname") 
except (Networkerror) as e: 

print (e.args) 


但 是 ,因为 Networkerror 是 一 个 自 定义 类 ,所 以 需要 使 用 raise 来 显 式 地 抛 出 
异常 。 

自 定义 异常 的 其 他 使 用 方法 则 与 标准 模块 中 的 异常 类 的 使 用 方法 一 致 。 下 面 将 
通过 一 个 具体 的 例子 来 进行 自 定义 异常 使 用 的 详细 讲解 。 具 体 如 下 : 

【 例 4-20】 判断 输入 的 长 短 。 


class ShortInputException(Exception) : 
#A user - defined exception class. 
def init (self, length, atleast): 
Exception. init (self) 
self. length = length 
self.atleast = atleast 
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try: 
s=raw input( 'Enter something ——>') 
if len(s) < 3: 
raise ShortInputException(len(s)，3) 
else: 
print (s) 
except EOFError: 
print ‘\nWhy did you do an EOF on me?" 
except ShortInputException as x: 
print ('ShortInputException:The input was length %d, \ 
was expecting at least %d.'% (x.length, x.atleast)) 
else: 
print ('No exception was raised.') 


在 上 述 例子 中 , 先 自 定义 了 一 个 名 为 ShortInputException 的 异常 类 ,其 用 来 判 
断 用 户 输入 的 字符 串 长 度 是 否 满足 要 求 。 在 本 例 中 ,其 判断 输入 字符 串 的 长 度 是 否 
大 于 或 等 于 3 个 字符 , 若 不 满足 , 则 抛 出 该 异常 。 


4.7.5 with 语句 


有 一 些 任 务 , 可 能 事先 需要 设置 ,事后 做 清理 工作 。 对 于 这 种 场景 ,Python 的 
with 语句 提供 了 一 种 非常 方便 的 处 理 方式 。 一 个 很 好 的 例子 是 文件 处 理 , 用 户 需要 
获取 一 个 文件 句柄 ,从 文件 中 读 取 数据 ,然后 关闭 文件 句柄 。 

Python 中 的 with 语句 用 于 对 资源 进行 访问 的 场合 ,保证 不 管 处理 过 程 中 是 否 发 
生 错 误 或 者 异常 都 会 执行 规定 的 _exit_ (清理 ”操作 ,释放 被 访问 的 资源 ,比如 有 
文件 读 写 后 自动 关闭 .线程 中 锁 的 自动 获取 和 释放 等 。 

与 Python 中 with 语句 有 关 的 概念 有 上 下 文 管理 协议 、 上 下 文 管理 器 .运行 时 上 
下 文 .上 下 文 表达 式 、 处 理 资源 的 代码 段 。 

with 语句 的 语法 格式 如 下 : 


withcontext expression [as target(s)]: 
with - body 


下 面 将 通过 一 个 例子 (打开 文件 的 方法 : 文件 不 存在 ,或 者 读 取 数据 失败 ,没有 
容错 信息 ) 来 说 明 with 语句 与 try-except 语句 之 间 的 区 别 。 
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【 例 4-21】 with 语句 与 try-except 语句 的 比较 。 


file= open("test. txt") 
data = file. read() 
file. close() 


这 里 有 两 个 问题 : 一 是 可 能 忘记 关闭 文件 句柄 ; 二 是 文件 读 取 数据 发 生 异 常 , 没 
有 进行 任何 处 理 。 下 面 是 处 理 异常 的 加 强 版 本 : 
try: 
file= open("test. txt") 
data= file. read() 
do something 


finally: 
file. close() 


虽然 这 段 代 码 运 行 良好 ,但 是 太 宛 长 了 。 这 时 候 就 是 with 一 展 身手 的 时 候 了 。 
除了 有 更 优雅 的 语法 以 外 ,with 还 可 以 很 好 地 处 理 上 下 文 环境 产生 的 异常 。 下 面 是 
with 版 本 的 代码 : 

with open("test. txt") as f: 


data = f. read() 
do something 


在 这 个 例子 中 ,由 于 使 用 了 with 语句 ,不 需要 try-finally 语句 来 确保 文件 对 象 的 
关闭 。 因 为 无 论 该 程序 是 否 会 出 现 异常 ,文件 对 象 都 将 被 系统 关闭 。 

但 是 并 不 是 所 有 对 象 都 支持 with 语句 这 一 新 特性 的 ,只 有 支持 上 下 文 管理 协议 
的 对 象 才 能 使 用 with 语句 ,支持 该 协议 的 对 象 有 file、 decimal、 Context. thread、 
LockType, threading. Lock、 threading. RLock, threading. Condition、 threading. 


Semaphore threading. BoundedSemaphore。 
4.7.6 断言 


使 用 assert 断言 是 学 习 Python 的 一 个 非常 好 的 习惯 ,Python assert 断言 语句 的 
格式 及 用 法 很 简单 。 在 没完 善 一 个 程序 之 前 ,我 们 不 知道 程序 在 哪里 会 出 错 ,与 其 让 
它 在 运行 时 崩 浊 ,不 如 让 它 在 出 现 错误 条 件 时 就 崩 江 ,这 时 候 就 需要 assert 断言 的 
帮助 。 
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Python assert 断言 的 作用 : Python assert 断言 是 声明 其 布尔 值 必须 为 真 的 判 
定 ,如果 发 生 异 常 就 说 明 表达 式 为 假 。 可 以 理解 assert 断言 语句 为 raise-if-not, 用 来 
测试 表达 式 , 其 返回 值 为 假 ,就 会 触发 异常 。 如 果断 言 成 功 , 则 程序 不 会 采取 任何 措 
施 ,否则 就 会 触发 AssertionError 异常 。 

assert 断言 语句 的 语法 格式 如 下 : 


assert expression 


assert 表达 式 
下 面 是 一 些 有 关 assert 用 法 的 语句 , 供 读者 参考 : 


assert 1 ==1 

assert 2+2==2#*2 

assert len([ 'my boy',12])<10 

assert range(4) == [0,1,2,3] 

如 何 为 assert 断言 语句 添加 异常 参数 ? assert 的 异常 参数 ,其 实 就 是 在 断言 表达 
式 后 添加 字符 串 信 息 ,用 来 解释 断言 并 更 好 地 知道 哪里 出 了 问题 。 格 式 如 下 : 


assert expression [, arguments] 
assert 表达 式 [， 参数] 


下 面 将 通过 一 个 例子 来 展示 assert 的 使 用 方法 。 有 具体 如 下 : 
【 例 4-22】 assert 断言 的 使 用 。 


assert 4==3+1 
assert 4==3x*1 


运行 结果 : 


Traceback (most recent call last) : 
File "tiaoshi006.py", line 2，in < module> 
assert 4==3x1 
AssertionError 


在 这 个 例子 中 ,第 1 行 代码 成 功 运行 ,但 是 第 2 行 代码 在 运行 过 程 中 抛 出 了 一 个 
AssertionError 异常 。 
接 下 来 利用 try-except 语句 来 捕获 处 理 AssertionError 异常 。 具 体 如 下 : 
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try 
assert 4==3x*1 
except AssertionError: 
print("The expression symbol is wrong!") 


运行 结果 : 
The expression symbol is wrong! 


这 样 ,通过 使 用 try-except 成 功 地 捕获 了 断言 失败 异常 。 


类 是 客观 世界 中 事务 的 抽象 ,是 一 种 广义 的 数据 类 型 ,根据 类 来 创建 对 象 被 称 为 
实例 化 ,对 象 是 类 实例 化 后 的 变量 。 本 童 主要 介绍 面向 对 象 编程 类 的 定义 、 属 性 和 方 
法 ,以 及 运算 符 的 重 载 ,还 介绍 了 类 的 继承 和 组 合 这 两 种 重用 技术 ,最 后 以 概念 与 实 
例 相 结合 的 方式 详细 讲述 Python 异常 处 理 机 制 、 内 置 异 常 类 的 类 型 .异常 处 理 的 语 
法 结构 ,异常 的 检测 和 处 理 方法 、 自 定义 异常 类 的 方法 与 使 用 。 


习题 


1. 创建 一 个 名 为 Fruit 的 类 ,其 中 方法 __init__O 〇 设置 两 个 属性 : fruit_name 和 
fruit_price; 并 创建 一 个 名 为 describe_fruit() 的 方法 和 一 个 名 为 number_fruit() 的 方 
法 ,前 者 打印 出 前 述 的 两 项 信息 ,后 者 打印 出 一 条 消息 ,表明 该 水 果 的 储备 量 充足 。 

根据 这 个 类 创建 一 个 名 为 fruit 的 实例 ,分 别 打印 其 两 个 属性 ,再 调用 前 述 的 两 
个 吉 法 。 

2. 向 题 1 编写 完成 的 程序 中 添加 一 个 名 为 number_sell 的 属性 ,并 将 其 默认 值 
设置 为 0。 根 据 这 个 类 创建 一 个 fruit 实例 ,打印 出 有 多 少 水 果 卖 出 了 ,然后 修改 这 个 
值 并 再 次 打印 它 。 

再 向 程序 中 添加 一 个 名 为 set_number_sell() 的 方法 , 它 能 让 卖家 设置 每 次 出 售 
的 限量 。 调 用 这 个 方法 并 向 它 传递 一 个 值 ,然后 再 次 打印 这 个 值 。 
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3. 创建 一 个 BankAccount 类 ,表示 银行 账户 。 自 行 定义 其 中 的 属性 和 方法 ,并 
利用 这 个 类 创建 一 个 账号 名 为 888666 .余额 为 35000\ 年 利率 为 3% 的 银行 账户 ,然后 
向 其 中 存 入 5000, 取 出 12 000。 打 印 出 账号 ,余额 ,年 利率 \ 年 息 。 

4. 简要 阐述 继承 和 组 合 的 概念 以 及 两 者 的 区 别 。 

.自主 设计 一 个 程序 案例 ,实现 类 的 继承 和 组 合 。 

. 简要 描述 异常 的 处 理 机 制 。 

.自行 编程 ,利用 try-except 语句 来 实现 捕获 异常 。 

. 自行 编程 ,利用 with 语句 和 断言 来 实现 检测 和 处 理 异 常 。 


a 


co A 上 品 


案例 


在 本 章 的 最 后 ,通过 讲解 一 个 文件 读 取 的 案例 来 展示 一 下 处 理 多 个 异常 的 具体 
操作 。 在 进行 文件 读 取 的 处 理 时 可 能 会 遇 到 多 个 异常 , 接 下 来 进行 解释 。 

例如 ,当前 目录 下 没有 test. txt 文件 ,然后 执行 下 面 的 读 取 文件 的 代码 : 

【 例 4-23】 多 异常 处 理 。 


try: 

f= open("test. txt") 

line=f£. read() 

num= int(line) 

print('"read num= %d"%num') 
except IOError, e: 

print('"we catch IOError:",e') 
finally: 

print("Close file") 

f.close() 


在 运行 程序 之 后 ,就 会 捕获 一 个 IOError 错误 ,具体 运行 结果 如 下 : 


>> 
we catch IOError: [Errno 2] No such file or directory: 'test. txt" 
Close file 


表明 程序 没有 在 当前 目录 下 找到 该 文件 ,原本 应 该 是 返回 一 个 异常 ,但 是 因为 在 程 
序 中 已 经 添加 了 异常 处 理 语句 ,所 以 该 异常 被 捕获 并 被 处 理 , 使 得 程序 能 正常 运行 。 
接 下 来 在 当前 目录 下 新 建 一 个 test. txt 文件 ,并 且 在 里 面 写 上 一 个 数字 “50”, 青 
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运行 代码 ,就 没有 问题 了 ,运行 结果 如 下 : 


>>> 
read num = 50 
Close file 


但 是 , 若 把 test. txt 文件 里 面 的 数字 50 改 成 字符 串 'abc' ,会 出 现 什么 情况 呢 ? 
运行 结果 如 下 : 


PP> 

Close file 

Traceback (most recent call last) : 

ValueFError: invalid literal for int() with base 10: 'abc' 


运行 之 后 ,就 会 报 这 是 一 个 ValueError, 但 是 原先 的 代码 只 能 捕捉 IOError, 没 有 
捕捉 ValueError, 所 以 没有 处 理 except 部 分 ,导致 返回 一 个 异常 。 继 续 修 改 代 码 ,在 
原先 的 代码 中 加 入 ValueError 异常 处 理 , 代 码 如 下 : 


try: 

f= open("test. txt") 

line=f£. read() 

num= int(line) 

print('"read num= % d"%num') 
except IOError, e: 

print('"we catch IOError:",e') 
except ValueError, e: 

print( '"we catch ValueError:",e') 
finally: 

print("Close file") 

f.close() 


运行 上 述 程 序 之 后 ,结果 如 下 : 


>>> 
we catch ValueError: invalid literal for int() with base 10: 'abc' 


Close file 

通过 在 程序 中 加 入 新 的 异常 处 理 语句 ,就 捕捉 到 了 ValueError, 这 说 明 Python 
在 异常 处 理 里 面 可 以 捕捉 多 个 异常 。 也 就 是 说 , 若 发 生 了 IOError, 就 执行 IOError 
里 面 的 异常 处 理 ; 若 发 生 了 ValueError, 就 执行 ValueError 里 面 的 异常 。 同 样 ,还 可 
以 通过 添加 其 他 类 型 的 异常 处 理 语 句 对 各 种 类 型 的 异常 进行 处 理 。 
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本 章 学 习 目 标 : 

。 学 习 NumPy 库 的 用 法 、 数 据 结构 和 基本 操作 

。 学 习 Pandas 库 的 用 法 、 数 据 结构 和 基本 操作 

。 学 习 Matplotlib 库 的 用 法 、 数 据 结构 和 基本 操作 

。 掌握 SciPy 库 的 操作 、 作 用 

。 掌握 Scikit-learn 库 的 操作 、 作 用 

本 章 介绍 Python 进行 数据 分 析 时 常用 的 NumPy、Pandas、Matplotlib、SciPy 和 
Scikit-learn 基础 库 。NumPy 是 Python 的 一 种 开源 数值 计算 扩展 库 , 这 种 工具 可 用 
来 存储 和 处 理 大 型 矩阵 , 比 Python 自身 的 嵌 套 列表 (nested list structure) 结 构 要 高 
效 许 多 ; Pandas 是 基于 NumPy 的 一 种 工具 ,该 工具 是 为 了 解决 数据 分 析 任务 而 创建 
的 ,Pandas 提供 了 大 量 的 库 和 标准 数据 模型 ,以 及 高 效 、 便 捷 地 处 理 大 型 数据 集 所 需 
的 函数 和 方法 ; Matplotlib 是 一 个 Python 的 2D 绘图 库 , 它 基于 各 种 硬 拷贝 格式 和 跨 

台 的 交互 式 环境 生成 出 版 质量 级 别 的 图 形 ; SciPy 是 一 款 方便 的 专 为 科学 和 工程 

设计 的 Python 工具 包 , 包 括 统计 ,优化 整合 、 线 性 代数 模块 、 伟 里 叶 变 换 、 信 号 和 图 
像 处 理 以 及 常 微分 方程 求解 器 等 Scikit-learn( 简 称 Sklearn) 是 SciPy 的 扩展 ,建立 在 
NumPy 和 Matplotlib 库 的 基础 之 上 ,支持 分 类 、 回 归降 维 和 聚 类 等 机 器 学 习 算法 。 
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5.1 NumPy 


NumPy(Numerical Python 的 缩写 ) 是 一 个 开源 的 Python 科学 计算 库 ,包含 很 多 
实用 的 数学 函数 ,涵盖 线性 代数 运算 、 傅 里 叶 变换 和 随机 数 生成 等 功能 。NumPy 允许 
用 户 进行 快速 的 交互 式 原型 设计 ,可 以 很 自然 地 使 用 数组 和 和 矩阵 。 它 的 部 分 功能 如 下 。 

(1) ndarray: 一 个 具有 矢量 算术 运算 且 节省 空间 的 多 维 数组 。 

(2) 用 于 对 整 组 数据 进行 快速 运算 的 标准 数学 函数 (无 须 编写 循环 )。 

(3) 用 于 读 / 写 磁盘 数据 的 工具 以 及 用 于 操作 内 存 映 射 文件 的 工具 。 

(4) 线性 代数 、 随 机 数 生成 以 及 傅 里 叶 变 换 功 能 。 

(5) 用 于 集成 C、C++ 、Fortran 等 语言 的 代码 编写 工具 。 

NumPy 的 底层 算法 在 设计 时 就 有 着 优异 的 性 能 ,对 于 同样 的 数值 计算 任务 ,使 
用 NumPy 要 比 直 接 编写 Python 代码 便捷 得 多 。 对 于 大 型 数组 的 运算 ,使 用 NumPy 
中 数组 的 存储 效率 和 输入 /输出 性 能 均 优 于 Python 中 等 价 的 基本 数据 结构 (例如 藤 
套 的 list 容器 ) 。 对 于 TB 级 的 大 文件 ,NumPy 使 用 内 存 映射 文件 来 处 理 ,以 达到 最 
优 的 数据 读 / 写 性 能 。 这 是 因为 NumPy 能 够 直接 对 数组 和 矩阵 进行 操作 ,可 以 省 略 
很 多 循环 语句 ,其 众多 的 数学 函数 也 会 让 开发 人 员 编 写 代码 的 工作 轻松 许多 。 不 过 
NumPy 数组 的 通用 性 不 及 Python 提供 的 list 容器 ,这 是 其 不 足 之 处 。 因 此 ,在 科学 
计算 之 外 的 领域 ,NumPy 的 优势 也 就 不 那么 明显 了 。NumPy 本 身 没有 提供 那么 多 
高 级 的 数据 分 析 功 能 ,理解 NumPy 数组 以 及 面向 数组 的 计算 将 有 助 于 更 加 高 效 地 使 
用 诸如 Pandas 之 类 的 工具 。 下 面 对 NumPy 的 数据 结构 和 操作 进行 介绍 。 

NumPy 的 多 维 数组 对 象 ndarray 是 一 个 快速 .灵活 的 大 数据 集 容器 。 用 户 可 以 
利用 这 种 数组 对 象 对 整 块 数据 进行 数学 运算 ,其 运算 跟 标 量 元 素 之 间 的 运算 一 样 。 
创建 ndarray 数组 最 简单 的 办 法 就 是 使 用 array() 函数 。 它 接受 一 切 序列 型 的 对 象 
(包括 其 他 数组 ) ,然后 产生 一 个 新 的 含有 传人 数据 的 NumPy 数组 。 这 里 以 一 个 列表 
的 转换 为 例 : 

In [1]: import numpy as np 

data= [6, 7.5, 8, 0, 1] 
arrl = np.array(data) 


arrl 
Outll]: array([ 6. 7 T:5; 8:; Dy LN 
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ndarray 是 一 个 通用 的 同 构 数据 多 维 容器 ,其 中 所 有 的 元 素 必须 是 相同 类 型 的 。 
每 一 个 数组 都 有 一 个 shape( 表 示 维 度 大 小 的 数组 ) 和 一 个 dtype( 用 于 说 明 数 组 数据 
类 型 的 对 象 ) : 


In [2]: arrl. shape 
Out[2]: (5,) 

In [3]: arrl. dtype 
Out[3]: dtype( 'float64') 


嵌 套 序列 (例如 由 一 组 等 长 列表 组 成 的 列表 ) 将 会 被 转换 成 一 个 多 维 数组 : 


In [4]: data2=[[1, 2, 3, 4], [5, 6, 7, 8]] 
arr2 = np. array(data2) 
arr2 

Out[4]: 

array([[1, 2, 3, 4], 
[5, 6, 7, 8]]) 

In [5]: arr2.ndim 

Out[5]: 2 

In [6]: arr2. shape 

Out[6]: (2, 4) 


除非 显 式 说 明 ,否则 np. array() 会 尝试 为 新 建 的 数组 推断 出 一 个 较为 合适 的 数 
据 类 型 。 数 据 类 型 保存 在 一 个 特殊 的 dtype 对 象 中 ,例如 上 面 的 两 个 例子 : 


In [7]: arrl.dtype 
Out[7]: dtype( 'float64') 
In [8]: arr2. dtype 
Out[8]: dtype( 'int32') 


除了 np.array() 外 ,还 有 一 些 函 数 可 以 新 建 数组 ,例如 np. zeros() 和 np. ones() 
可 以 分 别 创建 指定 长 度 或 形状 的 全 为 0 或 全 为 1 的 数组 。Empty 可 以 创建 一 个 没有 
任何 具体 数值 的 数组 。 如 果 要 用 这 些 方 法 创建 数组 ,只 需 传 人 一 个 表示 形状 的 元 组 
即 可 : 


In [9]: np. zeros(8) 
Outiole array( 100 0 On OF 0 0 OW) 
In [10]: np. zeros((2, 4)) 
Out[10]: 
array([[ 0.7 0 OO, 0 
(ih ), 
In [11]: np. empty((2, 3, 2)) 
Out[11]: 
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array([[[ 9.78249979e-322, 0.00000000e+000], 
[ 0.00000000e+ 000， 0.00000000e+ 000], 
[ 0.00000000e+000, 0.00000000e+ 000]], 


[[ 0.00000000e+ 000， 0.00000000e+000], 


[ 0.00000000e+ 000， 0.00000000e+ 000], 
[ 0.00000000e+000, 0.00000000e+ 000]]]) 


在 NumPy 中 ,np. empty() 会 认为 返回 全 为 0 的 数组 是 不 安全 的 ,所 以 它 会 返回 
一 些 未 初始 化 的 很 接近 0 的 随机 值 。 
ndarray 的 一 些 常用 的 基本 数据 操作 函数 如 表 5. 1 所 示 。 


表 5.1 ndarray 基本 数据 操作 函数 


函 数 说 明 
ny 将 输入 数据 (列表 元 组 .数组 或 其 他 序列 类 型 ) 转 换 为 ndarray。 推 断 出 
dtype 或 特别 指定 dtype, 默 认 直 接 赋 值 输入 数据 
asarray() 将 输入 转化 为 ndarray。 如 果 输 入 本 身 是 一 个 ndarray, 就 不 再 复制 
arange() 类 似 于 内 置 的 range, 但 返回 的 是 一 个 ndarray 而 非 list 
根据 指定 的 形状 和 dtype 创建 一 个 全 1 数组 。ones_like 以 另 一 个 数组 为 
ones() ,ones_like() 


参数 ,并 根据 其 形状 和 dtype 创建 一 个 全 1 数组 
zeros() ,zeros_like() 类 似 于 ones() 和 ones_like() ,只 不 过 产生 的 是 全 0 数组 
empty() ,empty_like() 创建 新 数组 ,只 分 配 内 存 空间 ,不 填充 任何 值 


fullO ,fullikeO 用 full value 中 的 所 有 值 ,根据 指定 的 形状 和 dtype 创建 一 个 数组 。full_ 
like() 使 用 另 一 个 数组 ,用 相同 的 形状 和 dtype 创建 
eye() ,identity() 创建 一 个 正方 的 NXN 矩阵 (对 角 线 为 1, 其 余 为 0) 


5.1.1 ndarray 的 数据 类 型 


党 
dtype( 数 据 类 型 ) 是 一 个 特殊 的 对 象 , 它 含有 ndarray 将 一 块 内 存 解 、 办 壤 
释 为 特定 数据 类 型 所 需 的 信息 ; 本 


In [12]: arr3 = np.array([1, 2, 3], dtype = np. float64) 
arr3 


Out[12]: array([ 1., 2., 3.]) 


In [13]: arr4 = np.array([1, 2, 3], dtype= np. int32) 
arr4 


Out[13]: array([1, 2, 3]) 


dtype 是 NumPy 如 此 强大 和 灵活 的 原因 之 一 。 在 多 数 情 况 下 , 它 直 接 映射 到 相 
应 的 机 器 表示 ,这 使 得 “ 读 / 写 磁盘 上 的 二 进 制 数 据 流 ” 以 及 “集成 低级 语言 代码 ”等 工 
作 变 得 更 加 简单 。 数 值 型 dtype 的 命名 形式 相同 : 一 个 类 型 名 (例如 float 或 int) ,后 
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面 跟 一 个 用 于 表示 各 元 素 位 长 的 数字 。 标 准 的 双 精 度 浮 点 值 ( 即 Python 中 的 float 
对 象 ) 需 要 占用 8 字 节 ( 即 64 位 )。 因 此 ,该 类 型 在 NumPy 中 记 作 float64。 
可 以 用 astype 的 方法 显示 更 改 数组 的 dtype: 


In [14]: arr5 = np.array([1, 2, 3]) 
arr5. dtype 

Out[14]: dtype( 'int32') 

In [15]: arr6 = arr5.astype(np. float64) 
arr6 

CutllSl arrarD 2 932]) 


5.1.2 数组 和 标量 之 间 的 运算 


用 数组 表达 式 代替 循环 的 方法 ,通常 被 称 作 矢 量化 (vectorization) 。 回 寻 


大 小 相等 的 数组 之 间 的 任何 算术 运算 都 会 应 用 到 元 素 集 : 


视频 讲解 


In [16]: arr = np.array([[1. ,2. , 3.], [4. ,5. ,6]]) 

arr x*arr 

Out[16]: 

ET 9 

[16., 25 36.]]) 

In [17]: arr - arr 

Out[17] : 

rvautll On IO Ql 
[0s ‘0 9:1]) 


同样 ,数组 和 标量 的 运算 也 会 将 那个 标量 传播 到 各 个 元 素 : 


In [18]: 1 /arr 


Out[18]: 

array([[ 1. Rs ， 0.33333333], 
[ 0.25 0 ， 0.16666667]]) 

ol ac OS 

Out[19] : 

array([[ 1. ， 1.41421356, 1.73205081], 
a ， 2.23606798, 2.44948974]]) 


5.1.3 索引 和 切片 


NumPy 索引 和 切片 是 一 个 内 容 丰 富 的 主题 ,因为 选取 数据 子 集 或 
单个 元 素 的 方式 有 很 多 。 首 先 , 一 维 数组 的 切片 索引 基本 和 Python 列 


表 的 切片 索引 功能 一 致 。 


In [20]: 


Out[20]: 
YnlL221 
Out[21]: 
Ta 
Out[22]: 
In [23]: 


Out[23]: 


arr = np.arange(10) 
arr 
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array([0, 1 2, 3, 4, 5, 6; 7, 8; 9]) 


arr[4] 

4 

arr[3:7] 

array([3, 4, 5, 6]) 
arr[3:5] = 12 

arr 

ET 1 2 12 012; 
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如 上 所 示 , 当 将 一 个 标量 赋值 给 一 个 切片 时 (例如 arrL3:5] 三 12) ,该 值 会 自动 传 
播 到 整个 选区 。 因 为 数组 切片 是 原始 数组 视图 ,这 就 意味 着 如 果 做 任何 修改 ,原始 都 
会 跟着 更 改 。 


In [24] : 


Out[24]: 
In [25]: 


Out[25]: 


arr_slice= arr[3:5] 
arr_slice[1] = 100 
ar 


STONE ee OA AS 7 TS 


arr_slice[ :] = 250 
arr 


Rear 四 OF 127 00 2507 0 07 07 9) 


对 于 高 维 数组 ,能 做 的 事情 更 多 。 在 一 个 二 维 数组 中 ,各 索引 位 置 上 的 元 素 不 再 


是 标量 而 是 


In [26]: arr=np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]) 


arr[2] 


Out[26]: array([7, 8, 9]) 


因此 ,可 以 对 各 个 元 素 进行 递归 访问 ,但 这 样 需要 做 的 事情 有 点 多 。 用 户 可 以 传 
入 一 个 以 逗号 隔 开 的 索引 列表 来 选取 单个 元 素 。 也 就 是 说 ,下 面 这 两 种 方式 是 等 


价 的 : 


In [27]: arr[1][2] 


Out[27] 


:6 


In [28]: arr[1, 2] 


Out[28] 


:6 


花 式 索引 是 利用 整数 数组 进行 索引 ,假设 有 一 个 8X4 的 数组 : 
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为 了 以 特定 的 顺序 选取 行 子 集 , 只 需 传 人 一 个 用 于 指定 顺序 的 整数 列表 或 
ndarray 即 可 : 


使 用 负数 索引 将 会 从 末尾 开始 选取 行 : 


当 一 次 传人 多 个 数组 时 , 它 返 回 的 是 一 个 一 维 数组 ,其 中 的 元 素 对 应 各 个 索引 
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[24, 25, 26, 27], 
[28, 29, 30, 31]]) 

In[33]: arz[li,5,7,2], [0,3,1,2]] 

Out[33]: array([ 4, 23, 29, 10]) 


它 选 出 的 元 素 其 实 是 (1,0)、(5,3)、(7,1) 和 (2,2) 这 些 位 置 的 元 素 。 这 个 花 式 索 
引 的 结果 可 能 和 某 些 用 户 预测 的 不 太一 样 ,选取 和 矩阵 的 行列 子 集 应 该 是 矩形 区 域 的 
形式 才 对 。 下 面 是 得 到 该 结果 的 一 个 办 法 : 


In [34]: arr{[[1,5,7,2]][:,[0,3,1,2]] 
Out[34]: 
array([[ 4, 7, 5, 6], 
L20230210 221 
[28, 31, 29, 30], 
[i ep 


另外 一 个 办 法 就 是 使 用 np. ix_O 〇 函数 , 它 可 以 将 两 个 一 维 数组 转换 成 一 个 用 于 
选取 方形 区 域 的 索引 器 : 


In [35]: arrfop: x (ba7527721 [O0371:21)] 
Out[35]: 
array(I[ Ms 7» 5, 6] 

[2023 2 20 

[28, 31, 29, 30], 

[ea 93911611 


注意 : 花 式 索引 和 切片 不 一 样 , 它 是 将 数据 复制 到 新 的 数组 中 。 


5.1.4 数组 转 置 和 轴 对 换 


转 置 (transpose) 是 重 塑 的 一 种 特殊 形式 , 它 返 回 的 是 源 数据 的 视图 0 
(不 会 进行 任何 复制 操作 )。 数 组 不 仅 有 transpose() 方 法 ,还 有 一 个 特 
殊 的 工 属性 : 


In [36]: arr = np.arange(15).reshape(5,3) 


Rrr 
Out[36] : 
array([[ 0, 1, 2], 

[3 


Le 7 el 


(118) Python 数据 分 析 与 实践 | 


Erno 
[12, 13, 14]]) 


In [37]: arr.T 

Out[37]: 

array([[ 0, 3, 6, 9, 12], 
[1, 4, 7,10,13], 
[2, 5, 8,11,14]]) 


在 进行 矩阵 计算 时 ,经常 需要 用 到 该 操作 ,例如 利用 np. dot() 计 算 和 矩阵 内 积 : 


In [38]: arr = np. random. randn(6,3) 

np. dot(arr.T，arr) 

Out[38] : 

array([[ 9.03630405, 0.49388948, —1.54587135], 
[ 0.49388948, 2.25164741, 1.93791071], 
[ -1.54587135, 1.93791071， 10.55460651]]) 


对 于 高 维 数组 ,transpose() 需 要 得 到 一 个 由 轴 编 号 组 成 的 元 组 才能 对 这 些 轴 进 
行 转 置 : 


In [39]: arr = np.arange(16). reshape( (2, 2, 4)) 
Arr 
Out[39]: 
array([[[ 0, ‘1: 2, ‘3], 
[4, 5, 6, 7]], 


趾 训 站 

D122 757121501) 
In [40]: arr. transpose( (1, 0, 2)) 
Out[40]: 
EECUTCO v1: 22 “3 

Lor 9 2014] 


[[4, 5, 6, 7], 
[12, 13, 14, 15]]]) 


5.1.5 利用 数组 进行 数据 处 理 


NumPy 数组 可 以 将 很 多 数据 处 理 任务 表述 为 简洁 的 数组 表达 式 tet 
(否则 需要 编写 循环 )。 矢 量化 数组 运算 要 比 Python 方式 快 上 一 两 个 数 。 视频 讲解 
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量 级 ,尤其 是 对 于 各 种 数值 运算 。 例 如 np. meshgrid() 函数 接受 两 个 一 维 数组 ,并 产 
生 两 个 二 维 矩 阵 ( 对 应 两 个 数组 中 所 有 的 (xy) 对 ) 。 


In [41]: points = np.arange( -5，5，0.01) #1000 个 间隔 相等 的 点 


xs, ys = np.meshgrid(points，points) 


ys 

Out[41]: 

Cr -5 J] 
[~-4.99, —4.99, —4.99, ..., -4.99, — 4.99, -4.99], 
[-4.98， —4.98, —4.98, ..., -4.98, —4.98, —4.98], 
Li MT Mn OO 全 -0 计 
[4.98, 4.98, 4.98, ..., 4.98, 4.98, 4.98], 
[4.99, 4.99, 4.99, ..., 4.99, 4.99, 4.99]]) 


假设 在 一 组 值 上 计算 函数 sqrt(x*2 十 y "2) ,这 时 对 函数 的 求 值 运 算 就 好 办 了 ， 


把 这 两 个 数组 当 作 两 个 浮 点 数 编写 表达 式 即 可 : 


In [42] : import matplotlib. pyplot as plt 
z=np.sqrt(xs xx2+ ys * * 2) 


z 
Out[42]: 

array([[ 7.07106781, 

7.05693985, 

[ 7.06400028, 

7.04985815, 

[ 7.05693985, 

7.04278354, 

[ 7.04988652, 

7.03571603, 

[ 7.05693985, 

7.04278354, 

[ 7.06400028, 

7.04985815, 


7.06400028, 
7.06400028], 
7.05692568, 
7.05692568], 
7.04985815, 
7.04985815], 


7.04279774, 
7.04279774], 
7.04985815, 
7.04985815], 
7.05692568, 


7.05693985,... 


7.04985815, ... 


7.04278354, ... 


75035716037 ... 


7.04278354, ... 


7.04985815, ... 


7.05692568]]) 


7.04988652, 


7.04279774, 


7.03571603, 


7.0286414 ， 


7.03571603, 


7.04279774, 


In [43]: plt. imshow(z, cmap= plt. cm. gray) 
plt. colorbar() 
plt. title( 'Image plot of $ \sqrt{x^2 + Y^2}5S$ fora grid of values') 
Out[43]: <matplotlib. text. Text at 0x1086aa90 > 


函数 值 的 图 形 化 结果 如 图 5. 1 所 示 。 
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宁 


Image plot of Y PH for a grid of values 


D 


400 600 800 1000 


图 5.1 根据 网 格 对 函数 求 值 的 结果 
5.1.6 数学 和 统计 方法 


用 户 可 以 通过 数组 上 的 一 组 数学 函数 对 整个 数组 或 某 个 轴 向 的 数据 进行 统计 
计算 。 


In [44]: arr = np. random. randn(5, 4) # 产 生 正 态 分 布 数 据 
arr. mean() 

Out[44]: —0.24070480645161735 

In [45]: np.mean(arr) 

Out[45]: -0.24070480645161735 

In [46]: arr.sum() 

Out[46]: -4.8140961290323467 


mean() 和 sum() 这 类 函数 可 以 接受 一 个 axis 参数 (用 于 计算 该 轴 向 上 的 统计 
值 ) ,最 终结 果 是 一 个 少 一 维 的 数组 ， 


In [47]: arr.mean(axis=1) 

Out[47]: array([ - 0.26271711，- 0.50185429， 0.38508322，- 0.25435201，- 0.56968384] ) 
In [48]: arr. sum(0) 

out[48]: array([ 0.81837351, —2.17245972, —4.01616748, 0.55615755]) 


像 cumsum() 和 cumprod() 之 类 的 方法 则 不 聚合 ,而 是 产生 一 个 由 中 间 结 果 组 成 
的 数组 : 


In [49]: arr=mnp.array([[0,1,2]，[3,4,5]，[6,7,8]]) 
arr. cumsum( 0) 

Out[49]: 

array([[ 0, 1, 2], 
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[3，5，7], 
[ 9, 12, 15]], dtype= int32) 
In [50]: arr. cumprod(1) 
Out[50]: 
array([[ 0, 0, 0], 
[ 3, 12, 60], 
[ 6, 42, 336]], dtype= int32) 


5.2 Pandas 


Pandas 的 名 称 来 自 于 面板 数据 (panel data) 和 Python 数据 分 析 (data analysis)， 
Pandas 是 一 种 基于 NumPy 的 数据 分 析 包 ,最 初 由 AQR Capital Management 于 2008 
年 4 月 作为 金融 数据 分 析 工 具 开发 出 来 ,并 于 2009 年 底 开源 ,目前 由 专注 于 Python 
数据 包 开 发 的 PyData 开发 小 组 继续 维护 。Pandas 提供 了 大 量 的 高 效 操作 大 型 数据 集 
所 需 的 函数 和 方法 , 它 是 使 Python 成 为 强大 而 高 效 的 数据 分 析 工 具 的 重要 因素 之 一 。 


5.2.1 Pandas 数据 结构 


1. Series 


Series 是 一 种 类 似 于 一 维 数组 的 对 象 , 它 由 一 组 数据 及 与 之 相关 的 一 组 数据 标 
签 ( 即 索引 ) 组 成 。 只 有 一 组 数据 可 产生 最 简单 的 Series: 
In [1]: import pandas as pd 


from pandas import Series, DataFrame 
obj = Series([4, 7, -5, 3]) 


obj 
Out[1]: 
0 4 
1 i 
-0 
1 3 
dtype: int64 


Series 的 字符 串 表现 形式 为 索引 在 左边 , 值 在 右边 。 由 于 没有 为 数据 指定 索引 ， 
会 自动 创建 一 个 0 一 N 一 1(N 为 数据 长 度 ) 的 整数 型 索引 。 用 户 可 以 通过 Series 的 
values 和 index 属性 获取 其 数组 表示 形式 和 索引 对 象 ; 
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In [2]: obj. values 
Out[2]: array([ 4, 7, -5, 3], dtype= int64) 
In [3]: obj. index 
Out[3]: RangeIndex(start =0, stop=4, step=1) 


通常 ,需要 创建 的 Series 带 有 一 个 可 以 对 各 个 数据 点 进行 标记 的 索引 : 


In [4]: obj2 = Series([4,3, -5,7], index=['d', 'b', 'a', 'c']) 


obj2 
Out[4]: 
d 4 
b 3 
a -5 
c yi 
dtype: int64 


与 普通 的 NumPy 数组 相 比 ,可 以 通过 索引 的 方式 选取 Series 中 的 单个 或 一 
组 值 : 


In [5]: obj2['a'] 

Oatlsl: = 

In [6]: obj2[['c', 'a', 'd']] 
Out[6]: 

c Wh 

a =5 

d 4 

dtype: int64 


2. DataFrame 


DataFrame 是 一 个 表格 型 的 数据 结构 , 它 含 有 一 组 有 序 的 列 , 每 列 可 以 是 不 同 的 
类 型 (数值 型 .字符 串 ,布尔 型 等 ) 。DataFrame 既 有 行 索 引 , 又 有 列 索 引 , 可 以 看 作 是 
由 Series 组 成 的 字典 (共用 同一 个 索引 )。 跟 其 他 类 似 的 数据 结构 相 比 , DataFrame 
中 面向 行 和 面向 列 的 操作 基本 是 平衡 的 。 构 建 DataFrame 的 方法 很 多 ,最 常见 的 就 
是 直接 传人 一 个 由 等 长 列表 或 NumPy 数组 组 成 的 字典 : 
In [7]: data = {'state': ['Ohio'，'Ohio'，'Ohio'，'Nevada'，'Nevada']， 
‘year':[2000, 2001, 2002, 2001, 2002], 


pop lo. 1 7, 36 2 2.90} 
frame = DataFrame( data) 
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frame 

Out[7]: 

pop state year 
和 Ohio 2000 
二 Ohio 2001 
3.6 Ohio 2002 
2.4 Nevada 2001 
2.9 Nevada 2002 


CT 


如 果 指 定 了 列 序列 ,DataFrame 的 列 就 会 按照 指定 的 顺序 进行 排列 : 


In [8]: DataFrame(data, columns = ['year', 'state', 'pop']) 
Out[8]: 

year state pop 

2000 Ohio 1.5 

2001 Ohio 1.7 

2002 Ohio 3.6 

2001 Nevada 2.4 

2002 Nevada 2.9 


wb Ph 


5.2.2 Pandas 文件 操作 


1，Pandas 读 取 文件 


Pandas 提供 了 一 些 用 于 将 表格 型 数据 读 取 为 DataFrame 对 象 的 函数 。 表 5. 2 
对 它们 进行 了 总 结 , 其 中 read_csv() 和 read_table() 可 能 会 是 今后 用 得 最 多 的 。 


表 5.2 Pandas 读 取 文 件 的 函数 


函数 说 明 
read_csv() 从 文件 .URL .文件 型 对 象 中 加 载 带 分 隔 符 的 数据 。 默 认 分 隔 符 为 逗号 
read_table() 从 文件 .URL 文件 型 对 象 中 加 载 带 分 隔 符 的 数据 。 默 认 分 隔 符 为 制 表 符 ("\t") 
read_fwf() 读 取 定 宽 列 格式 数据 (也 就 是 说 没有 分 隔 符 ) 
| 读 取 剪贴 板 中 的 数据 ,可 以 看 作 是 read_table( ) 的 剪贴 板 。 它 在 将 网 页 转换 为 表 
格 时 非常 有 用 


2. Pandas 导出 文件 


Pandas 导出 文件 的 函数 如 表 5. 3 所 示 。 
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表 5.3 Pandas 导出 文件 的 函数 
函 数 说 明 
file_path 表示 文件 路 径 
sep 表示 分 隔 符 
index 代表 是 否 导出 行 序号 
header 代表 是 否 导 出 列 序号 
file_path 表示 文件 路 径 
sep 表示 分 隔 符 
index 代表 是 否 导出 行 序号 
header 代表 是 否 导 出 列 序号 


to_csv(file_path,sep 一 ' ',index= True, header= True) 


to_excel(file_path,sep=' ',index= True,header= True) 


5.2.3 数据 处 理 


在 数据 分 析 中 ,数据 清洗 是 数据 价值 链 中 最 关键 的 步骤 。 数 据 清 洗 就 是 处 理 缺 
失 数据 以 及 清除 无 意义 的 信息 。 对 于 垃圾 数据 ,即使 是 通过 最 好 的 分 析 , 也 将 产生 错 
误 的 结果 ,并 误导 业务 本 身 。 

对 缺失 值 的 处 理 有 数据 补 齐 、 删 除 对 应 行 .不 处 理 等 几 种 方法 。 例 如 : 


In [9]: 

import pandas as pd 

import numpy as np 

from pandas import DataFrame 

data= {'Tom':[170, 26, 30], ‘Mike':[175, 25, 28], ‘Jane':[170, 26, np. nan], 'Tim':[175, 25, 28]} 
datal = DataFrame(data).T 

datal. drop_duplicates() 

datal 


该 段 代 码 的 输出 结果 如 下 : 


Out [9]: 

0 1 2 
Jane 170.0 26.0 NaN 
Mike 175.0 25.0 28.0 
Tim 175.0 25.0 28.0 
Tom 170.0 26.0 30.0 


方法 一 : 删除 有 缺失 值 的 行 。 


In [10]: 
data2 = datal. dropna() 
data2 
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删除 后 的 结果 如 下 : 


Out [10]: 

0 有 
Mike 175.0 25.0 28.0 
Tim 175.0 25.0 28.0 
Tom 170.0 26.0 30.0 


通过 使 用 dropna( ) 方 法 后 ,可 以 看 到 第 1 行 存在 缺失 值 , 故 被 删 掉 了 。 
方法 二 : 对 缺失 值 进行 填充 有 很 多 方法 ,比较 常用 的 有 均值 填充 ,中 位 数 填充 、 
众 数 填 充 等 。 以 下 采用 均值 填充 : 


In [11]: 
data3 = datal, fillna(datal. mean()) 
data3 


结果 为 : 


out [11]: 

on 2 
Jane 170.0 26.0 28.666667 
Mike 175.0 25.0 28.000000 
Tim 175.0 25.0 28.000000 
Tom 170.0 26.0 30.000000 


5.2.4 层次 化 索引 


层次 化 索引 是 Pandas 的 一 个 重要 功能 , 它 能 使 一 个 轴 上 有 多 个 (两 个 以 上 ) 索 引 
级 别 , 即 它 能 以 低 维 度 形式 处 理 高 维度 数据 。 


Tm 2]s 
import pandas as pd 
import numpy as np 
from pandas import Series, DataFrame 
data = Series(np. random. randn(10), 
1drx= la a a by bb eer dr dl 
L237 27371r272.311) 


data 

Out[12]: 

a 1 一 0.088594 
2 0.316611 


3 1.383978 


Python 数据 分 析 与 实践 | 


这 就 是 带 有 多 重 索引 的 Series 格式 化 输出 。 下 面 看 一 下 它 的 索引 : 


对 于 一 个 层次 化 索引 的 对 象 ,选取 一 个 数据 集 很 简单 : 


甚至 还 可 以 在 “内 层 ” 中 进行 选取 : 
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In [17]: 

data[ :,2] 
Out[17]: 

a 0.316611 
b —0.111913 
c 一 0.054285 
d 一 0.136860 


dtype: float64 


层次 化 索引 在 数据 重 塑 和 基于 分 组 的 操作 中 扮演 着 重要 的 角色 。 例 如 ,一 个 数 
据 可 以 通过 它 的 unstack() 方 法 被 重新 安排 到 一 个 DataFrame 中 : 


In [18]: 
data. unstack() 
Out[18] : 
i 2 3 
a 一 0.088594 0.316611 1.383978 


b 0215510 =0.111913 一 02580355 
c -0.048050 一 0.054285 NaN 
d NaN -0.136860 一 1.578472 


对 于 一 个 DataFrame 对 象 ,每 条 轴 都 可 以 有 分 层 索 引 : 


In [19]: 
df = DataFrame(np.arange(12). reshape( (4,3)), 
index= [['a', 'a', 'b', 'b'],[1,2,1,2]], 
columns = [[ 'Ohio', 'Ohio', 'Colorado'], 
['green', 'red', 'green']]) 


DE 

Out[19]: 
Ohio Colorado 
green red green 
al QO 2 
2 < 加 5 
bl 0 8 
2 9 10 11 


各 层 都 可 以 有 名 字 ( 字 符 串 或 者 其 他 Python 对 象 )。 如 果 指 定名 称 , 它 就 会 显示 
在 控制 台 输 出 中 : 


In [20]: 

df. index. names = [ 'keyl', 'key2'] 

df. columns. names = [ 'state', 'color'] 
df 
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由 于 有 了 分 部 的 索引 ,所 以 可 以 很 轻松 地 选取 列 分 组 : 


5.2.5 分 级 顺序 


1. 重新 分 级 排序 


有 时 需要 重新 调整 某 条 轴 上 各 级 别 的 顺序 ,或 根据 指定 级 别 的 值 对 数据 进行 重 
新 排序 。Swaplevel() 接 受 两 个 级 别 编号 或 名 称 ,并 返回 一 个 互 换 级 别 的 新 对 象 (但 
数据 不 会 发 生变 化 ) 。 


在 交换 级 别 时 经 常会 用 到 sortlevel() ,sortlevel() 根 据 单个 级 别 中 的 值 对 数据 进 
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行 排序 ,这样 最 终结 果 就 是 有 序 的 了 : 


2. 根据 级 别 汇总 统计 


许多 对 DataFrame 和 Series 的 描述 和 汇总 统计 都 有 一 个 level 选项 , 它 用 于 指定 
在 某 条 轴 上 求 和 的 级 别 。 例 如 : 


5.2.6 使 用 DataFrame 的 列 


有 时 希望 将 DataFrame 的 一 个 或 多 个 列 索引 当成 行 用 ,或 者 将 DataFrame 的 行 
索引 变 成 列 。 
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DataFrame 的 set_index() 方 法 会 将 一 个 或 多 个 列 转化 成 行 索引 ,并 创建 一 个 新 
的 DataFrame: 


DataFrame 的 reset_index() 方 法 会 将 层次 化 索引 的 级 别 转移 到 列 里 面 去 : 


5.3 Matplotlib 


Matplotlib 可 以 通过 绘图 帮助 用 户 找 出 异常 值 ,进行 必要 的 数据 转换 ,得 出 有 关 
模型 的 idea 等 ,是 Python 数据 分 析 重 要 的 可 视 化 工具 。 
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5.3.1 figure 和 subplot 


Matplotlib 的 图 像 都 位 于 figure 中 ,可 以 用 plt. figure() 创 建 一 个 新 的 figure: 


In [28]: 
import matplotlib. pyplot as plt 
fig= plt. figure() # 创建 一 个 新 的 figure, 会 弹出 一 个 空 窗口 


plt. figure() 的 一 些 选项 ,特别 是 figuresize, 可 以 确保 图 片 保存 到 磁盘 上 时 具有 
一 定 的 大 小 和 纵横 比 。plt. gcf() 可 得 到 当前 figure 的 引用 ,必须 用 add_subplot() 创 
建 一 个 或 多 个 subplot 才 可 以 绘图 : 

In [29]: 

axl = fig. add_subplot(2,2,1) 

以 上 代码 的 意思 是 该 图 像 是 2X2 的 ( 即 有 4 个 subplot), 且 当前 选中 的 是 4 个 
subplot 中 的 第 一 个 (编号 从 1 开始 )。 如 果 要 把 后 面 的 也 创建 并 显示 出 来 ,可 以 用 如 
下 代码 : 


In [30]: 
ax2 = fig. add_subplot(2,2,2) 
ax3 = fig. add_subplot(2,2,3) 
ax4 = fig. add_subplot(2,2,4) 


这 几 行 代码 运行 的 结果 如 图 5.2 所 示 。 


out[30] : 
1.00 1.00 
0.75 0.75 
0.50 上 0.50 
0.25 025 
%0%05 02 04 06 0.8 10"0.0 02 04 06 08 10 
1.00 1.00 
0.75 0.75 
0.50 0.50 
025 025 


0.00 0.00 
00 02 04 06 08 10 00 02 04 06 08 1.0 


5.2 有 4 个 subplot 的 figure 
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这 时 如 果 执 行 一 条 绘图 命令 plt. plot([ ]), Matplotlib 就 会 在 最 后 一 个 用 过 的 
subplot( 没 有 则 创建 一 个 ) 上 进行 绘制 。 因 此 ,执行 下 列 代码 可 以 得 到 图 5. 3 所 示 的 
结果 : 

In [31]: 

from numpy. random import randn 


plt. plot(randn(50).cumsum(), k——') 
Out[31]: 


1.00 1.00 
0.75 0.75 
0.50 0.50 
0.25 0.25 
0.00 0.00 
00 02 04 06 08 10 00 02 04 06 08 1.0 
1.00 
0.75 
0.50 上 
0.25 上 
0.00 
00 02 04 06 08 1.0 0 20 40 


图 5.3 进行 绘制 操作 后 的 图 


必 --' 是 一 个 线 型 选项 ,用 于 告诉 Matplotlib 绘制 黑色 虚线 图 。 前 面 那 些 由 fig. 
add_subplot() 返 回 的 是 AxesSubplot 对 象 ,直接 调用 其 实例 方法 就 可 以 在 其 他 空 着 
的 格子 里 面 绘图 : 

In [32]: 

import numpy as np 


axl. hist(randn(100), bins = 20,color = 'k', alpha = 0.3) 
ax2. scatter(np. arange(30),np.arange(30) + 3 * randn(30)) 


结果 如 图 5.4 所 示 。 
Out[32] : 


可 以 在 Matplotlib 中 找到 各 种 图 标 类 型 。 根 据 特 定 布局 创建 figure 和 subplot 
是 一 件 非 常常 见 的 任务 ,于 是 便 出 现 了 一 个 更 为 方便 的 方法 一 一 plt. subplots()。 它 
可 以 创建 一 个 新 的 figure, 并 返回 一 个 含有 已 创建 的 subplot 对 象 的 NumPy 数组 : 
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0.00 -15 
00 02 04 06 08 1.0 0 20 40 
图 5.4 连续 绘制 后 的 图 
Tn 1330: 
fig, axes = plt. subplots(2,3) 
axes 
输出 结果 为 : 
Out[33]: 


array([[<matplotlib. axes._subplots. AxesSubplot object at 0x0000000012486278 >, 
<matplotlib. axes._subplots. AxesSubplot object at 0x0000000013EFF780 >, 
< matplotlib. axes._subplots. AxesSubplot object at 0x00000000161A67B8 >], 
[<matplotlib. axes._subplots. AxesSubplot object at 0x00000000161FF588 >, 
< matplotlib. axes._subplots. AxesSubplot object at 0x0000000016265AC8 >, 
< matplotlib. axes._subplots. AxesSubplot object at 0x00000000162BE400 >]], 
dtype = object) 


这 是 非常 实用 的 ,因为 可 以 轻松 地 对 axes 数组 进行 索引 ,就 好 像 一 个 二 维 数组 
一 样 ,例如 axes[0,1]。 用 户 还 可 以 通过 sharex 和 sharey 指定 subplot 应 该 具有 相同 
的 X 轴 或 Y 轴 。 在 比较 相同 范围 内 的 数据 时 ,这 也 是 非常 实用 的 ,否则 Matplotlib 
会 自动 缩放 各 图 表 的 界限 。 关 于 subplots 的 更 多 信息 如 表 5.4 所 示 。 


表 5.4 pyplot. subplots() 的 参数 


参 数 说 明 
nrows subplot 的 行 数 
ncols subplot 的 列 数 
sharex 所 有 subplot 应 该 使 用 相同 的 X 轴 刻度 (调节 xlim 会 影响 所 有 的 subplot) 
sharey 所 有 subplot 应 该 使 用 相同 的 Y 轴 刻度 (调节 ylim 会 影响 所 有 的 subplot) 
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续 表 
参数 说 明 
subplot kw 用 于 创建 各 subplot 的 关键 字 字 典 
x# fig kw 创建 figure 时 的 其 他 关键 字 


5.3.2 调整 subplot 周围 的 间距 


在 默认 情况 下 ,Matplotlib 会 在 subplot 外 围 留 下 一 定 的 边 距 ,并 在 subplot 之 间 留 
下 一 定 的 间距 。 间 距 跟 图 像 的 高 度 和 宽度 有 关 , 因 此 ,如 果 调 整 了 图 像 大 小 ,间距 也 会 
自动 调整 。 利 用 figure 的 subplots_adjust() 方 法 可 以 轻而易举 地 修改 间距 ,代码 如 下 : 


In [34] : 
fig，axes = plt. subplots(2,2, sharex = True, sharey = True) 
for i in range(2) : 
for j in range(2) : 
axes[i,j].hist(randn(500),bins = 50，color = 'k', alpha= 0.5) 
plt. subplots_adjust(wspace = 0, hspace= 0) 


wspace 和 hspace 用 于 控制 宽度 和 高 度 的 百分比 ,可 以 用 作 subplots 之 间 的 间 
距 , 在 这 个 例子 中 将 间距 收缩 到 0, 如 图 5.5 所 示 。 


Out[34]: 


2 0 


图 5.5 各 subplots 之 间 没 有 间距 


由 图 5. 5 不 难看 出 其 中 的 轴 标 签 重 琶 了 。Matplotlib 不 会 检查 轴 标 签 是 否 重生 ， 
所 以 对 于 这 种 情况 ,用户 只 能 自己 设 定 刻度 位 置 和 刻度 标签 。 
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5.3.3 颜色 .标记 和 线 型 


Matplotlib 的 plot() 函数 可 以 接受 一 组 (x,y) 坐 标 以 及 表示 颜色 和 线 型 的 字符 串 
缩写 。 常 用 的 颜色 都 有 一 个 缩写 词 ,如 果 要 使 用 其 他 颜色 ,可 以 使 用 指定 其 RGB 值 
的 方式 。 例 如 要 根据 x 和 y 绘制 红色 虚线 ,可 以 执行 如 下 代码 : 


In [35]: 
plt. plot(x,y, 'r——') 


这 种 在 一 个 字符 串 中 指定 颜色 和 线 型 的 方式 非常 方便 ,也 可 以 通过 下 面 这 种 更 
为 明确 的 方式 得 到 同样 的 效果 : 


In [36]: 
plt. plot(x,y, linestyle= '——', color= 'r') 


5.3.4 刻度 标签 和 图 例 


对 于 大 多 数 的 图 标 装饰 项 而 言 , 其 实现 方式 主要 有 两 种 ,即使 用 过 程 型 的 pyplot 
接口 和 更 为 面向 对 象 的 原生 Matplotlib API。 设 计 pyplot 接口 的 目的 就 是 实现 交互 
式 作用 , 它 含 有 诸如 xlim() 、xticks() 和 xticklabels() 之 类 的 方法 ,分 别 控制 图 表 的 范 
围 .刻度 位 置 和 刻度 标签 等 。 其 使 用 方式 有 以 下 两 种 : 

(1) 调用 时 不 带 参数 , 则 返回 当前 的 参数 值 。 例 如 ,plt. xlim() 返 回 当前 X 轴 的 
绘图 范围 。 

(2) 调用 时 带 参数 , 则 设置 参数 。 例 如 ,plt. xlim([0,100]) 会 将 X 轴 的 范围 设置 
为 0 一 100。 

这 些 方法 都 是 对 当前 或 最 近 创 建 的 AxesSubplot 起 作用 ,它们 各 自 对 应 subplot 
对 象 上 的 两 个 方法 。 以 xlim0 〇 为 例 , 就 是 ax. get_xlim() 和 ax. set_xlim()。 为 了 说 明 
轴 的 自 定义 ,创建 一 个 简单 的 图 像 并 绘制 一 段 随机 漫步 图 ,如 图 5. 6 所 示 : 


In [37]: 

fig= plt. figure() 

ax= fig.add subplot(1,1,1) 
ax. plot(randn(1000). cumsum( )) 
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Out[37]: 
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图 5.6 随机 漫步 图 例 


如 果 要 修改 X 轴 刻 度 , 最 简单 的 办 法 是 使 用 set_xticks() 和 set_xticklabels()。 
前 者 告诉 Matplotlib 要 将 刻度 放 在 数据 范围 中 的 哪些 位 置 ,在 默认 情况 下 这 些 位 置 
也 就 是 刻度 标签 。 


5.3.5 添加 图 例 


图 例 (legend) 是 另外 一 种 用 于 表示 图 标 元 素 的 重要 工具 。 添 加 图 例 的 最 简单 的 
方式 ,就 是 在 添加 subplot 的 时 候 传人 label 参数 : 


In [38] : 

fig= plt. figure() 

ax= fig.add subplot(1,1,1) 

ax. plot(randn(1000). cumsum(), 'k', label = 'one') 


当 需 要 对 图 中 的 线 进行 注解 时 ,可 用 下 面 这 样 的 代码 添加 图 例 : 


In [39]: 

fig= plt.figure() 

ax= fig.add subplot(1,1,1) 

ax. plot(randn(1000). cumsum(), 'k', label = 'one') 

ax. plot(randn(1000). cumsum(), k—— ',label = 'one') 
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ax. plot(randn(1000). cumsum(), 'k. ', label = 'one') 
ax. legend( loc = 'best') 


这 几 行 代码 得 到 的 效果 如 图 5.7 所 示 。 用 户 可 以 通过 loc 参数 来 指定 图 例 所 在 
的 位 置 ,'best' 表 示 它 会 自动 找 一 个 最 佳 位 置 。 


Out[39]: 


0 200 400 600 800 1000 


图 5.7 在 最 佳 位 置 添加 图 例 


5.3.6 将 图 表 保 在 到 文件 


利用 plt. savefig() 方 法 可 以 将 当前 图 表 保 存 到 文件 。 该 方法 相当 于 figure 对 象 
的 savefig() 实 例 方 法 。 例 如 要 将 图 表 保 存 为 SVG 格式 文件 ,需要 用 如 下 代码 : 


In [40]: 
plt. savefig( 'figpath. svg') 


文件 类 型 是 通过 文件 扩展 名 推断 出 来 的 。 因 此 ,如 果 用 户 使 用 的 是 . jpg, 就 会 得 
到 一 个 JPG 格式 的 文件 。 在 发 布 图 片 时 最 常用 到 的 两 个 选项 是 dpi( 控 制 “每 英寸 点 
数 ”) 和 bbox_inches( 剪 除 当 前 图 表 周 围 的 空白 部 分 )。 如 果 用 户 想 得 到 一 个 指定 分 
状 率 的 文件 ,可 以 用 下 面 的 语句 : 


In [41]: 
plt. savefig( 'figpath. svg', dpi = xxx, bbox inches= 'tight') 
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dpi 表示 想 要 得 到 的 分 辨 率 ,bbox_inches 二 'tight' 表 示 得 到 的 图 片 带 有 最 小 的 白 
边 。figure. savefig() 方 法 的 参数 说 明 如 表 5. 5 所 示 。 


表 5.5 figure. savefig() 方 法 的 参数 说 明 


参数 说 明 
含有 文件 路 径 的 字符 串 ,或 者 Python 的 文件 型 对 象 ,图 像 格式 由 文件 扩展 名 推断 
fname 而 出 
dpi 图 像 的 分 辩 率 (每 英寸 点 数 ) ,默认 等 于 100 
facecolor 图 像 的 背景 颜色 ,默认 为 白色 
egdecolor 图 像 四 周 的 颜色 ,默认 为 白色 
format 设置 文件 格式 ,例如 png .pdf\svg、jpg…… 
bbox_inches 图 像 需 要 保存 的 部 分 。 如 果 设 置 为 tight', 则 会 尝试 剪 掉 图 像 周 围 的 空白 部 分 
5.4 SciPy 


SciPy 建立 在 NumPy 基础 之 上 ,集成 了 众多 的 数学 、 科 学 以 及 工程 计算 中 常用 
库 函 数 的 Python 模块 ,例如 线性 代数 、 常 微分 方程 数值 求解 信号 处 理 、 图 像 处 理 、 稀 
政 和 矩阵 等 。 通 过 给 用 户 提供 一 些 高 层 的 命令 和 类 ,SciPy 在 Python 交互 式 会 话 中 大 
大 增加 了 操作 和 可 视 化 数据 的 能 力 。 通 过 SciPy,Python 的 交互 式 会 话 变 成 了 一 个 


数据 处 理 和 
SciLab 抗衡 


system-prototyping 的 环境 ,足以 和 MATLAB、IDL、Octave、R-Lab 以 及 


SciPy 的 子 模块 涵盖 了 不 同 科学 计算 领域 的 内 容 , 表 5.6 对 它们 进行 了 总 结 。 


表 5.6 SciPy 子 模块 的 描述 


子 模 块 描 述 
constans 物理 和 数学 常数 

cluster 聚 类 算法 

fftpack 快速 传 里 叶 变换 程序 
integrate 集成 和 常 微分 方程 求解 器 
interpolate 拟 合 和 平滑 曲线 

io 输入 和 输出 

linalg 线性 代数 

maxentropy 最 大 炉 法 

ndimage NN 维 图 像 处 理 
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续 表 

子 模 块 描 述 
odr 正 交 距离 回归 
optimize 最 优 路 径 选择 
signal 信号 处 理 
sparse 稀疏 矩阵 以 及 相关 程序 
spatial 空间 数据 结构 和 算法 
Special 特殊 函数 
states 统计 上 的 函数 和 分 布 
weave C/C++ 整合 

例如 ,用 optimize 实现 最 优化 : 


In [42]: 
from scipy import * 
import matplotlib. pyplot as plt 
import numpy as np 
from scipy import optimize 
# 最 优化 问题 (寻找 函数 的 最 大 值 或 者 最 小 值 ) 是 数学 中 的 一 大 领域 ,复杂 函数 的 最 优化 问题 
# 或 者 多 变量 的 最 优化 问题 , 可 能 会 非常 复杂 
x= linspace( -~ 5, 3, 100) 
def f(x): 
return 4#XX x*3 + (x—-2)##*2+ Xxx #4 
# 局 部 最 小 值 
x_min local = optimize. fmin bfgs(f, 2) 
print(x_min_local) 
# 全 局 最 小 值 
x_max_global = optimize. fminbound(f, -10, 10) 
print(x_max global) 


5.5 Scikit-learn 


Scikit-learn(Sklearn) 是 Python 基于 NumPy、SciPy、Matplotlib 实现 机 器 学 习 的 
算法 库 ，,Scikit-learn 库 始 于 2007 年 的 Google Summer of Code 项 目 , 最 初 由 David 
Cournapeau 开发 。 它 是 一 个 简洁 、 高 效 的 算法 库 ,可 以 实现 数据 预 处 理 、 分 类 、 回 归 、 
降 维 、 模 型 选择 等 常用 的 机 器 学 习 算法 ,以 用 于 数据 挖掘 和 数据 分 析 , 有 具体 内 容 见 第 
10 章 。 图 5. 8 所 示 为 Scikit-learn 算法 框架 图 。 
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本 章 小 结 


本 章 介绍 Python 数据 分 析 的 常用 库 : NumPy 数值 计算 库 是 数据 分 析 的 基础 , 它 
将 数据 转化 为 数组 进行 计算 ; Pandas 是 Python 数据 分 析 的 标准 库 ,里 面包 含 了 很 多 
数据 分 析 的 工具 ; Matplotlib 是 将 数据 可 视 化 的 库 , 可 以 让 用 户 对 数据 有 一 个 更 加 直 
观 、 清 晰 的 认识 ; SciPy 是 一 个 基于 NumPy 的 集成 数学 计算 库 ; Scikit-learn 是 一 个 
集成 了 很 多 机 器 学 习 算 法 的 库 。 


习题 


1. 创建 一 个 长 度 为 10 的 一 维 的 全 为 0 的 ndarray 对 象 ,然后 让 第 3 个 元 素 等 
于 5 

2. 利用 Matplotlib 画 出 一 个 1000 步 的 随机 漫步 (Random Walk) 的 图 例 ,通过 
set_xticks() 和 set_xticklabels() 将 其 放 在 最 佳 位 置 。 

3. 根据 如 下 原始 数据 集 raw_data 生成 一 个 DataFrame, 并 将 其 赋值 给 变量 
army。 

raw_data 一 { regiment': ['Nighthawks', 'Nighthawks', 'Nighthawks', 'Nighthawks', 
'Dragoons', 'Dragoons', 'Dragoons', 'Dragoons', 'Scouts', 'Scouts', 'Scouts', 'Scouts'],"' 
company': ['lst’, 'lst', '2nd', '2nd', 'lst', 'lst', '2nd', '2nd', 'lst', 'lst', '2nd 
"ond |]; "deaths's L523 52 .255 616 43, 234, :523; 625 .625 735 .375 351; 
'battles': [5, 42, 2, 2, 4, 7, 8, 3, 4, 7, 8, 9], 'size': [1045, 957, 1099, 1400, 
1592, 1006, 987, 849, 973, 1005, 1099, 1523],'veterans': [1, 5, 62, 26, 73, 37, 
949, 48, 48; 435, 63, 345]5 "readiness"y [ls 2; 3 .35 25 ls 23 35 25 Ls 273 
'armored': [1, 0, 1, 1, 0, 1, 0, 1, 0, 0, 1, 1],'deserters': [4, 24, 31, 2, 3, 4, 
24, 31, 2, 3, 2, 3],'origin': ['Arizona', 'California', ‘Texas', 'Florida', "Maine', 'Iowa', 


'Alaska', 'Washington', 'Oregon', "Wyoming'. 'Louisana', 'Georgia']} 
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网 络 数 据 的 获取 


本 章 学 习 目 标 : 

。 了 解 网 页 的 基本 组 织 形式 

。 了 解 HTML 和 XML 的 基础 知识 

。 熟练 掌握 urllib 和 BeautifulSoup4 模块 

随 着 互联 网 在 世界 范围 内 的 迅速 普及 ,其 产生 了 越 来 越 多 的 数据 。 互 联网 自 
出 现 以 来 ,与 人 类 社会 各 方面 的 发 展 联系 得 越 来 越 紧密 ,其 产生 的 数据 中 蕴藏 着 大 
量 对 社会 生产 实践 过 程 有 用 的 信息 。 但 是 ,数据 量 的 急剧 增加 也 带 来 了 一 个 严重 
的 问题 一 一 信息 过 载 。 通 俗 地 理解 ,就 是 单 赁 人力 难 以 完成 人 们 所 需 数据 的 检索 
与 获取 。 换 而 言 之 , 即 无 法 凭借 人 有 限 的 计算 力 从 海量 的 数据 中 获取 有 用 的 信息 。 
幸运 的 是 随 着 计算 机 技术 的 飞快 发 展 ,人 们 开始 可 以 借助 计算 机 代替 或 者 协助 完 
成 这 项 繁重 的 任务 。 本 章 是 为 获取 网 络 数 据 做 前 期 准备 ,在 内 容 上 限于 互联 网 网 
页 数据 的 获取 。 本 章 首先 介绍 两 种 流行 的 互联 网 网 页 形式 一 -HTML 和 XML; 
然后 介绍 如 何 使 用 urllib 获取 网 页 数据 ; 最 后 介绍 如 何 使 用 BeautifulSoup4 解析 网 
页 文档 。 
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6.1 网 页 数据 的 组 织 形式 


将 网 页 作为 一 个 整体 进行 获取 并 不 困难 ,困难 之 处 在 于 如 何 从 网 页 中 提取 出 用 
户 所 需要 的 数据 。 想 要 实现 这 个 目的 ,了 解 网 页 是 如 何 组 织 的 就 显得 非常 必要 。 在 
浏览 器 中 ,用 户 可 以 看 见 网 页 的 最 终 呈 现形 式 , 继 而 很 清楚 地 知道 自己 需要 哪些 数 
据 。 那 么 如 何 通过 计算 机 获取 这 些 数据 呢 ? 通常 而 言 ,计算 机 程序 获取 的 是 以 文本 
形式 存在 的 网 页 源 代码 ,必须 由 用 户 告诉 它 需 要 提取 网 页 源 代码 中 的 哪 部 分 数据 。 
本 节 简 要 介绍 两 种 典型 的 网 页 组 织 形式 , 即 HTML 和 XML, 从 而 为 网 络 数 据 的 抓 取 
做 好 基础 工作 。 


6.1.1 HTML 


HTML 的 英文 全 称 是 Hyper Text Markup Language, 中文 译 为 超 文本 标记 语 
。 超 文本 标记 语言 是 标准 通用 标记 语言 下 的 一 个 应 用 ,也 是 一 种 规范 ,一 种 标准 ， 
它 通 过 标记 符号 来 标记 要 显示 的 网 页 中 的 各 个 部 分 。 网 页 文件 本 身 是 一 种 文本 文 
件 , 通 过 在 文本 文件 中 添加 标记 符 可 以 告诉 浏览 器 如 何 显示 其 中 的 内 容 ( 例 如 文字 如 
何 处 理 、 画 面 如 何 安 排 , 图 片 如 何 显示 等 )。 浏 览 器 按 顺 序 阅 读 网 页 文件 ,然后 根据 标 
记 符 解释 和 显示 其 标记 的 内 容 , 但 对 书写 出 错 的 标记 不 指出 错误 , 且 不 停止 其 解释 执 
行 过 程 。 程 序 编写 者 只 能 通过 显示 效果 来 分 析出 错 原因 和 出 错位 置 。 需 要 注意 的 
是 ,不 同 的 浏览 器 对 同一 个 标记 符 可 能 会 有 不 完全 相同 的 解释 ,因此 可 能 会 呈现 出 不 
同 的 显示 效果 。 

超 文本 标记 语言 文档 的 制作 并 不 是 很 复杂 ,但 其 功能 确实 异常 强大 ,支持 不 同 数 
据 格式 的 文件 放 入 HTML 文档 中 ,这 也 是 万 维 网 (WWW) 盛 行 的 原因 之 一 。HTML 
主要 有 以 下 几 个 特点 。 

(1) 可 扩展 性 : 超 文本 标记 语言 的 广泛 应 用 促使 越 来 越 多 的 组 织 或 者 个 人 为 其 
带 来 了 加 强 功 能 、 增 加 标识 符 等 要 求 , 超 文本 标记 语言 采取 子 类 元 素 的 方式 ,为 系统 
扩展 带 来 保证 。 

(2) 平台 无 关 性 : 虽然 安装 有 Windows 操作 系统 的 计算 机 盛行 于 世 , 但 使 用 
MacOS、Linux、UNIX 等 其 他 操作 系统 计算 机 的 也 大 有 人 在 。 超 文本 标记 语言 是 一 


lg 
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项 互联 网 通用 标准 ,可 以 广泛 使 用 在 各 种 平台 上 ,并 不 依赖 于 某 个 或 某 些 特定 的 操作 
系统 。 这 也 是 万 维 网 盛行 的 另 一 个 原因 。 
(3) 通用 性 : 超 文 本 标记 语言 是 网 络 的 通用 语言 ,是 一 种 简单 .通用 的 全 置 标记 


HTML 文档 包含 了 HTML 标签 (TAG) 和 文本 ,通过 它们 来 描述 网 页 。Web 浏 
览 器 的 作用 是 将 HTML 源 文件 转化 成 网 页 形式 ,并 显示 出 它们 。 浏 览 器 本 身 并 不 会 
显示 出 HTML 标签 ,而 是 使 用 它们 来 解释 页 面 的 内 容 。 


6.1.2 HTML 元 素 


HTML 标签 通常 用 两 个 角 括 号 括 起 来 , 即 用 < > 来 进行 标记 ,例如 段落 标记 <p >、 
图 片 标记 < img > 等 。 标 签 都 是 闭合 的 (两 种 格式 : 双 标 签 ( 成 对 ) 与 单 标签 (不 成 
对 ))。 双 标签 形 如 “< 标签 名 > 标签 内 容 </ 标 签名 >”, 例 如 < table >…</table >。 这 被 
称 为 一 个 标签 对 ,并 分 为 开始 标签 和 结束 标签 。 第 一 个 标签 是 开始 标签 (也 称 为 开放 
标签 ) ,第 二 个 标签 是 结束 标签 (也 称 为 闭合 标签 )。 单 标签 形 如 “< 标签 名 />”, 例 如 
<br/><hr/> 等 。 在 HTML 中 ,大 多 数 HTML 元 素 通 常 都 是 成 对 出 现 的 。 这 里 有 
两 点 需要 注意 : 第 一 ,由 于 HTML 是 一 种 弱势 语言 ,如 果 单 标签 不 写 */ ”一般 也 不 会 
报错 ,但 如 果 放 在 某 些 规定 比较 严格 的 浏览 器 上 运行 ,可 能 会 出 现 问题 ,所 以 建议 用 户 
按照 规范 的 格式 写 代 码 ; 第 二 ,标签 是 大 小 写 无 关 的 ,例如 < body > 和 < BODY > 表示 的 
意思 是 一 样 的 ,推荐 用 户 使 用 小 写 , 这 样 符合 XHTML 标准 。 开 始 标签 和 结束 标签 
以 及 它们 之 间 包 含 的 内 容 构 成 了 一 个 元 素 。 某 些 HTML 元 素 没 有 内 容 , 这 被 称 为 空 
元 素 。 空 元 素 在 开始 标签 中 进行 关闭 (以 开始 标签 的 结束 而 结束 ) 。 

在 大 多 数 元 素 之 中 可 以 嵌 套 其 他 元 素 。 例 如 ,html 元 素 < html >…</html > 之 间 
可 以 嵌 套 主体 元 素 < body >…</body >, 而 主体 元 素 < body>…</body> 之 间 又 可 以 嵌 
套 段 落 元 素 <p >…</p>。 对 于 HTML 文档 , 嵌 套 是 它 最 基本 的 组 织 架构 之 一 。 对 
于 HTML 元 素 , 有 以 下 几 个 需要 注意 的 问题 。 

(1) 结束 标签 : 对 于 目前 的 HTML 版 本 来 说 ,即使 用 户 忘记 使 用 结束 标签 ,大 多 
数 浏览 器 也 会 正确 地 显示 相应 的 HTML 内 容 ,但 是 并 不 建议 这 样 做 。 在 未 来 的 
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HTML 版 本 中 将 逐步 严格 要 求 使 用 结束 标签 。 

(2) 空 元 素 : 没有 内 容 的 HTML 元 素 称 为 空 元 素 。 它 并 不 需要 通过 类 似 于 
< tag >…</tag > 的 方式 开始 和 关闭 标签 ,而 是 通过 <… /> 标签 直接 开始 和 结束 标签 。 
换行 标签 (< br >) 就 是 一 种 空 元 素 。 正 确 关 闭 空 元 素 的 方法 是 在 开始 标签 末尾 直接 
添加 斜 杠 ,例如 < br/>。 目 前 ,HTML、XHTML 和 XML 都 接受 这 种 方式 。 也 就 是 
说 ,即使 < br > 在 所 有 浏览 器 中 都 是 有 效 的 ,但 是 使 用 < br/> 其 实 是 更 有 保障 的 做 法 。 

(3) 标签 大 小 写 : 目前 ,HTML 标签 不 区 分 大 小 写 , 例 如 < body > 和 < BODY > 代 
表 相 同 的 意思 ,虽然 有 许多 网 站 使 用 大 写 的 HTML 标签 。 值 得 注意 的 是 ,万 维 网 联 
盟 (W3C) 在 HTML4 中 推荐 使 用 小 写 ,而 在 XHTML 版 本 中 强制 使 用 小 写 。 

从 上 述 内 容 中 可 以 看 出 ,在 当前 的 互联 网 环境 下 ,HTML 文档 的 编写 并 没有 严 
格 的 要 求 和 组 织 ,存在 一 些 标签 的 缺失 和 不 规范 ,这 就 需要 使 用 工具 去 补 全 HTML 
文档 的 结构 。 表 6. 1 中 列举 了 一 些 最 常用 的 HTML 元 素 。 


表 6.1 一 些 常用 的 HTML 元 素 


元 素 描 述 
<1 -> 定义 注释 
<! DOCTYPE> 定义 文档 类 型 
<a> 超 链 接 
<address> 定义 文档 作者 或 拥有 者 的 联系 信息 
<aside> 定义 页 面 内 容 之 外 的 内 容 
<audio> 定义 声音 内 容 
<base> 定义 页 面 中 所 有 链接 的 默认 地 址 或 默认 目标 
<body> 定义 文档 的 主体 
<br> 定义 简单 的 折 行 
<div> 定义 文档 中 的 节 
<dl> 定义 列表 
<form> 定义 供用 户 输入 的 HTML 表单 
<frame> 定义 框架 集 的 窗口 或 框架 
<hl> 一 <h6>> 定义 HTML 标题 
<head> 定义 关于 文档 的 信息 
<hr> 定义 水 平 线 
<html> 定义 HTML 文档 
<iframe> 定义 内 联 框架 
<img> 定义 图 像 
<object> 定义 内 赃 对 象 
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续 表 
元 素 描 述 
<ol> 定义 有 序列 表 
< 定义 段落 
< script> 定义 客户 端 脚本 
<span> 定义 文档 中 的 节 
<style> 定义 文档 的 样式 信息 
<table> 定义 表格 
<title> 定义 文档 的 标题 
<u> 定义 无 序列 表 
<var> 定义 文本 的 变量 部 分 
<video> 定义 视频 


6.1.3 HTML 属性 


HTML 标签 是 可 以 设置 并 拥有 属性 的 ,属性 提供 了 关于 HTML 元 素 的 附加 
信息 ,在 HTML 元 素 中 属性 一 般 出 现在 开始 标签 中 ,并 且 总 是 以 名 称 / 值 对 的 形 


式 出 现 , 例 如 name 一 "value" 。 
下 面 举 几 个 HTML 属性 实例 。 


属性 例子 1: 


<hl > 定义 标题 的 开始 。 


<hl align 一 "center"> 拥 有 关于 对 齐 方式 的 附加 信息 ,表示 居中 排列 标题 。 


属性 例子 2: 


<body > 定义 HTML 文档 的 主体 。 


< body bgcolor 一 "yellow"> 拥 有 关于 背景 颜色 的 附加 信息 ,表示 将 背景 颜色 设置 


为 黄色 。 


属性 有 以 下 注意 事项 。 


(1) 大 小 写 : 属性 和 属性 值 不 区 分 字母 大 小 写 , 不 过 万 维 网 联盟 在 其 HTML 推 
荐 标准 中 推荐 使 用 小 写 的 属性 名 /属性 值 ,在 XHTML 中 要 求 使 用 小 写 属 性 。 

(2) 值 应 该 包含 在 引号 内 : 属性 值 应 该 始终 被 包括 在 引号 内 , 双 引 号 是 最 常用 
的 ,不 过 使 用 单 引 号 也 没有 问题 。 在 某 些 个 别 的 情况 下 ,比如 属性 值 本 身 就 含有 双 引 
号 的 情况 ,必须 使 用 单 引号 ,例如 name= 'Bill "HelloWorld" Gates '。 
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6.2 XML 


XML 指 可 扩展 标记 语言 (Extensible Markup Language) , 它 是 一 种 用 于 标记 电 
子 文件 使 其 具有 结构 性 的 标记 语言 ,类似 于 HTML。1998 年 2 月 ,W3C 正式 批准 了 
可 扩展 标记 语言 的 标准 定义 ,是 W3C 的 推荐 标准 。XML 可 对 文档 和 数据 进行 结构 
化 处 理 , 从 而 能 够 在 企业 内 、 外 部 进行 数据 交换 ,实现 动态 内 容 的 生成 。XML 可 帮助 
人 们 更 加 准确 地 搜索 、 更 加 方便 地 传送 软件 组 件 、 更 好 地 描述 一 些 事物 。 

XML 是 各 种 应 用 程序 之 间 进 行 数据 传输 的 最 常用 的 工具 。XML 的 设计 宗旨 是 
传输 数据 ,而 不 是 显示 数据 。 此 外 ,XML 标签 没有 被 预定 义 , 用 户 需 要 根据 实际 需求 
自行 定义 标签 。XML 文档 不 会 对 标签 或 数据 内 容 本 身 做 任何 变换 , 它 只 是 被 设计 用 
来 结构 化 ,存储 以 及 传输 信息 。 用 户 需 要 通过 编写 程序 或 软件 才能 传送 、 接 收 和 显示 
XML 文档 。 

HTML 和 XML 都 是 标准 通用 标记 语言 的 子 集 ,但 XML 不 是 HTML 的 替代 ， 
XML 和 HTML 是 为 不 同 目的 设计 的 : 

(1) XML 被 设计 用 来 传输 和 存储 数据 ,其 焦点 是 数据 的 内 容 。 

(2) HTML 被 设计 用 来 显示 数据 ,其 焦点 是 数据 的 外 观 。 

简单 地 说 ,HTML 旨 在 显示 信息 ,而 XML 旨 在 传输 信息 。 此 外 ,与 HTML 相 
比 ,XML 的 标记 需要 成 对 出 现 ,并 且 字 母 区 分 大 小 写 。 另 外 ,存在 错误 的 HTML 文 
档 是 可 以 编译 的 ,但 是 存在 语法 错误 的 XML 文档 应 该 避免 进行 编译 。 

目前 ,XML 在 Web 中 起 到 的 作用 已 经 完全 不 亚 于 一 直 作 为 Web 基石 的 
HTML。XML 正成 为 各 种 应 用 程序 之 间 进 行 数据 传输 的 最 常用 工具 ,并 且 在 信息 存 
储 和 描述 领域 变 得 越 来 越 流行 。 

XML 具有 以 下 用 途 。 

(1) 实现 HTML 布局 与 数据 的 分 离 : XML 文件 可 以 独立 地 存储 数据 ,因此 用 户 
可 专注 于 HTML 的 布局 和 显示 ,而 无 须 因 数据 的 变更 修改 HTML 文档 。 

(2) 简化 数据 共享 : 作为 一 种 通用 标记 语言 ,XML 可 以 在 不 同 的 计算 机 系统 、 不 
同 的 操作 系统 .不同 的 应 用 程序 之 间 交 换 数据 ,从 而 使 数据 的 共享 更 加 简单 。 

(3) 简化 数据 传输 : XML 使 不 兼容 系统 之 间 的 数据 传输 更 加 轻松 。 
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(4) 简化 平台 变更 : 由 于 XML 在 数据 共享 和 传输 方面 的 功能 ,平台 的 变更 更 加 
自由 。 

(5) 创建 新 的 Internet 语言 : 例如 XHML、WAP、WAML 5、RSS 等 互联 网 常用 技 
术 都 是 通过 XML 创建 的 。 

在 论述 了 XML 的 特点 和 用 途 之 后 ,下 面 把 重点 转移 到 其 本 身 一 一 结构 和 语法 。 


6.2.1 XML 的 结构 和 语法 


XML 文档 形成 了 一 种 树 结构 , 它 从 “根部 ”开始 ,然后 扩展 到 “枝叶 ”。XML 文档 
必须 包含 根 元 素 ,该 元 素 是 其 他 所 有 元 素 的 父 元 素 。 一 个 形象 的 描述 是 ,XML 文档 
中 的 元 素 形 成 了 一 棵 文档 树 ,这 棵 树 从 根部 开始 ,并 一 直 扩展 到 树 的 最 底 端 ,所 有 元 
素 均 可 拥有 子 元 素 。 父 、 子 以 及 同胞 等 术语 用 于 描述 元 素 之 间 的 关系 。 父 元 素 拥有 
子 元 素 ,相同 层级 上 的 子 元 素 称 为 同胞 ,所 有 元 素 均 可 拥有 文本 内 容 和 属性 。 

下 面 用 一 个 具体 的 例子 来 讲述 XML, 其 代码 表示 一 本 书 。 

【 例 6-1】 XML 详解 。 


<bookstore> 
< book category = "COOKING"> 
<title lang = "en"> Everyday Italian </title> 
< author > Giada De Laurentiis </author > 
< year > 2005 </year > 
<price> 30.00</price> 
</book> 
< book category = "CHILDREN"> 
<title lang = "en"> Harry Potter </title> 
<author >J K. Rowling </author > 
< year > 2005 </year > 
<price> 29.99 </price> 
</book > 
< book category = "WEB"> 
<title lang = "en"> Learning XML </title> 
<author > Erik T. Ray</author> 
< year > 2003 </year > 
<price> 39.95 </price> 
</book> 
</bookstore> 


该 例 中 的 根 元 素 是 < bookstore >, 文 档 中 的 所 有 < book > 元 素 被 包含 在 < bookstore> 


中 。< book > 元 素 有 4 个 子 元 素 , 即 < title >、< author >、< year>、< price >, 而 且 < title >、 
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<author>、\< year>,< price > 互 为 同胞 元 素 。 

XML 的 语法 非常 简单 .清晰 ,一 个 合法 的 XML 文档 应 具有 以 下 特点 。 

(1) 元 素 必 须要 有 关闭 标签 ,而 HTML 在 某 些 情况 下 可 以 省 略 关闭 标签 。 

(2) 标签 区 分 字母 大 小 写 , 而 HTML 不 区 分 字母 大 小 写 。 在 XML 中 ,标签 
< Letter > 与 标签 < letter > 是 不 同 的 。 

(3) 必须 正确 地 组 套 : 在 HTML 中 用 户 经 常会 看 到 没有 正确 嵌 套 的 元 素 , 例 如 
<b><i>This text is bold and italic </b ></i>; 在 XML 中 所 有 元 素 都 必须 彼此 正确 
地 嵌 套 ,例如 <b ><i>This text is bold and italic</i></b>。 在 这 里 正确 嵌 套 的 意思 
是 ,由 于 < i> 元 素 是 在 < b > 元素 内 打开 的 ,那么 它 必须 在 <b > 元 素 内 关闭 。 

(4) 文档 必须 要 有 根 元 素 , 且 只 能 有 一 个 根 元素 , 即 必须 要 有 一 个 元 素 是 其 他 所 
有 元 素 的 父 元 素 。 例 如 : 

【 例 6-2】 根 元 素 。 

<root> 

<child> 
< subchild>…</subchild> 


</child> 
</root > 


(5) 属性 值 需要 添加 引号 : 与 HTML 类 似 ,XML 也 可 拥有 属性 (名 称 / 值 对 )。 
其 中 ,属性 值 需要 用 单 引号 或 者 双 引 号 括 起 来 。 请 研究 下 面 两 个 XML 文档 ,第 一 个 
是 错误 的 ,第 二 个 是 正确 的 。 

【 例 6-3】 格式 对 比 。 


<note date = 08/08/2008> 
<to> George </to> 

< from> John </from> 
</note> 


<note date = "08/08/2008"> 
<to> George </to> 

< from > John </from> 
</note> 


第 一 个 文档 中 的 错误 是 ,< note > 元 素 中 date 属性 的 值 没 有 加 引号 。 
(6) 实体 引用 : 在 XML 中 一 些 字符 有 特殊 的 意义 。 如 果 用 户 把 字符 “<” 放 
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在 XML 元 素 中 ,会 发 生 错误 ,这 是 因为 解析 器 会 把 它 当 作 新 元 素 的 开始 ,这 样 会 
产生 XML 错误 ,例如 < message > if salary < 1000 then </message >。 为 了 避免 产 
生 这 个 错误 ,请 用 实体 引用 来 代替 “<” 字 符 , 即 <message >if salary &lt; 1000 then 
</message >。 


在 XML 中 有 5 个 预定 义 的 实体 引用 ,如 表 6. 2 所 示 。 


表 6.2 实体 引用 介绍 


替代 符号 原 符 号 会 各 
&lt 和 小 于 
&gt > 夫 于 
&.amp; & 和 号 
Bapos; ” 单 引号 
& aquot; 引号 


与 HTML 不 同 ,XML 文本 内 容 中 的 空格 会 被 保留 。HTML 会 把 多 个 连续 的 空 
格 字符 裁减 (合并 ) 为 一 个 。 


HTML: Hello my name is David. 
输出 : Hello my name is David. 


在 XML 中 ,文档 中 的 空格 不 会 被 删节 。 

(7) XML 以 LF 存储 换行 : 在 Windows 应 用 程序 中 ,换行 通常 以 一 对 字符 来 存 
储 , 即 回 车 符 (CR) 和 换行 符 (CLF)。 这 对 字符 与 打字 机 设置 新 行 的 动作 有 相似 之 处 。 
在 UNIX 应 用 程序 中 ,新 行 以 LF 字符 存储 ,而 Macintosh 应 用 程序 使 用 CR 存储 
新 行 。 


6.2.2 XML 元 素 和 属性 


和 HTML 一 样 ,XML 也 由 元 素 构成 。XML 元 素 指 的 是 从 ( 且 包 括 ) 开 始 标签 直 
到 ( 且 包 括 ) 结 束 标签 的 所 有 部 分 。 元 素 可 以 包含 其 他 元 素 ,文本 或 者 两 者 的 混合 物 ， 
元 素 也 可 以 拥有 属性 。 与 HTML 不 同 的 是 .XML 的 元 素 标签 都 是 用 户 自 定义 的 ,而 
非 预定 义 的 。 因 此 ,XML 中 的 标签 可 以 有 任意 多 个 ,并 且 可 以 表达 一 定 的 实际 含义 ， 
这 也 是 XML 可 作为 数据 传输 和 存储 文档 的 关键 所 在 。 其 次 ,XML 元素 是 可 扩展 的 ， 
这 也 使 得 它 可 以 携带 更 多 的 信息 。 请 看 下 面 这 个 XML 例子 : 
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<note> 

<to> George </to> 

<from> John </from> 

< body> Don't forget the meeting!</body> 
</note> 


假设 创建 了 一 个 应 用 程序 ,可 将 < to >、< from > 以 及 < body > 元 素 提取 出 来 ,并 产 
生 以 下 输出 : 


MESSAGE 
To: George 
From: John 


Don't forget the meeting! 


之 后 又 向 这 个 文档 添加 了 一 些 额 外 的 信息 : 


<note> 

<date>2008- 08- 08 </date> 

<to> George </to> 

< from > John </from> 

< heading > Reminder </heading> 

< body> Don't forget the meeting!</body > 
</note> 


想 一 下 ,这 个 应 用 程序 会 中 断 或 崩溃 吗 ? 

答案 是 不 会 。 这 个 应 用 程序 仍然 可 以 找到 XML 文档 中 的 < to >、< from > 以 及 
<body> 元 素 ,并 产生 同样 的 输出 。 也 就 是 说 ,即使 在 一 些 编辑 完成 的 XML 文档 中 插 
入 新 内 容 也 不 会 影响 到 其 他 应 用 程序 对 原 有 文档 数据 的 提取 。XML 的 优势 之 一 是 
可 以 经 常 在 不 中 断 应 用 程序 的 情况 下 进行 扩展 。 

XML 的 元 素 大 部 分 是 用 户 自 定义 的 ,因此 其 命名 需要 遵循 一 定 的 规则 : 

(1) 名 称 可 以 包含 字母 ,数字 以 及 其 他 字符 。 

(2) 名 称 不 能 以 数字 或 者 标点 符号 开始 。 

(3) 名 称 不 能 以 字符 “xml”( 或 者 XML Xml) 开始。 

(4) 名 称 不 能 包含 空格 。 

因为 XML 没有 保留 字 ,所 以 在 遵循 以 上 规则 的 前 提 下 可 以 使 用 任意 字符 作为 元 
素 的 名 称 。 但 是 ,由 于 XML 是 用 于 数据 传输 的 ,元 素 的 命名 最 好 可 标识 相应 的 实际 含 
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义 ,元 素 的 名 称 也 应 该 尽量 简短 。 此 外 ,由 于 XML 中 数据 的 提取 是 在 其 他 软件 中 进行 
的 ,所 以 在 命名 元 素 时 需要 考虑 对 应 软件 的 处 理 习 惯 ,以 免 造 成 一 些 不 必要 的 麻烦 。 

与 HTML 类 似 ,XML 元 素 也 可 以 在 开始 标签 中 包含 属性 ,并 通过 属性 提供 有 关 
元 素 的 额外 信息 。 值 必须 被 引号 包围 ,不 过 单 引号 和 双 引 号 均 可 使 用 。 例 如 在 
person 标签 中 提供 一 个 人 的 性 别 ,可 以 这 样 写 : 


<person sex= "female"> 


也 可 以 这 样 写 : 


<person sex= 'fenale> 

如 果 属 性 值 本 身 包 含 双 引号 ,那么 有 必要 使 用 单 引号 括 住 它 ,就 像 这 个 例子 : 
< gangster name = 'George "Shotgun" Ziegler'> 

或 者 使 用 实体 引用 

< gangster name = "George &quot; Shotgungquot; Ziegler"> 


从 原则 上 说 ,任何 元 素 的 开始 标签 都 可 以 包含 属性 。 但 是 ,从 XML 的 数据 传输 
与 数据 存储 的 功能 出 发 ,会 因 使 用 属性 而 引起 一 些 问题 : 

(1) 属性 无 法 包含 多 重 的 值 ( 元 素 可 以 ) 。 

(2) 属性 无 法 描述 树 结构 (元 素 可 以 ) 。 

(3) 属性 不 易 扩 展 ( 为 未 来 的 变化 ) 。 

(4) 属性 难以 阅读 和 维护 ,请 尽量 选择 用 元 素来 描述 数据 ,而 使 用 属性 提供 与 数 
据 无 关 的 信息 。 

有 时 候 会 向 元 素 分 配 ID 索引 ,这 些 ID 索引 可 用 于 标识 XML 元 素 , 它 起 作用 的 
方式 与 HTML 中 的 ID 属性 是 一 样 的 。 下 面 这 个 例子 演示 了 这 种 情况 : 

【 例 6-5】 ID 索引 。 

<messages> 

<note id= "501"> 


<to> George </to> 
<from> John </from> 
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< heading > Reminder </heading> 
< body > Don't forget the meeting!</body > 
</note> 
<note id= "502"> 
<to>John</to> 
<from> George </from> 
< heading > Re: Reminder </heading > 
<body>I will not </body> 
</note> 
</messages> 


上 面 的 ID 仅仅 是 一 个 标识 符 , 用 于 标识 不 同 的 便签 , 它 并 不 是 便签 数据 的 组 成 部 分 。 
因此 读者 应 该 有 这 样 一 个 概念 : 元 数据 (有 关 数 据 的 数据 ) 应 当 存 储 为 属性 ,而 
数据 本 身 应 当 存储 为 元 素 。 


6.3 利用 urllib 处 理 HTTP 


视频 讲解 


如 何 获取 网 页 数据 呢 ? 简单 地 说 ,就 是 通过 URL 来 获取 HTML 
文档 。 在 浏览 器 中 呈现 给 用 户 的 可 能 是 排版 精良 图文并茂 的 一 个 网 页 ,其实 这 就 是 
浏览 器 解释 的 结果 。 从 根本 上 讲 , 它 是 一 段 结合 了 JavaScript 和 CSS 的 HTML 代 
码 。 形 象 地 说 ,如 果 把 网 页 比 作 一 个 人 ,那么 HTML 便 是 骨架 ,JavaScript 就 是 肌肉 ， 
CSS 则 是 衣服 。 

本 节 讲 解 如 何 使 用 Python 标准 库 中 的 urllib 获取 网 页 的 HTML 源 代码 ,以 及 
如 何 使 用 BeautifulSoup4 从 HTML 中 提取 各 种 元 素 。 

互联 网 中 最 基本 的 传输 单元 是 网 页 。WWW 的 工作 基于 B/S 计算 模型 ,由 网 络 
浏览 器 和 网 络 服务 器 构成 ,两 者 之 间 采 用 超 文 本 传送 协议 (HTTP) 通 信 。HTTP 
(HyperText Transfer Protocol, 超 文本 传输 协议 ) 构 建 于 TCP/IP 协议 之 上 ,是 网 络 
浏览 器 和 网 络 服 务 器 之 间 的 应 用 层 协 议 , 是 一 种 通用 的 、 无 状态 的 面向 对 象 的 协议 。 
它 允 许 将 超 文本 标记 语言 (HTML) 文 档 从 Web 服务 器 传送 到 客户 端的 浏览 器 。 除 
了 保证 计算 机 正确 ,快速 地 传输 HTML 以 外 , HTTP 还 确定 传输 文档 中 的 哪 一 部 
分 ,以 及 哪 部 分 内 容 首先 显示 (例如 文本 先 于 图 形 ) 等 。 

一 次 HTTP 操作 称 为 一 个 事务 ,其 工作 过 程 可 分 为 以 下 4 步 。 

(1) 建立 连接 (connect) : 首先 客户 机 与 服务 器 需要 建立 连接 ,只 要 单 击 某 个 超 
链接 ,HTTP 的 工作 便 开 始 。 
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(2) 浏览 器 请 求 (request) : 在 建立 连接 后 ,客户 机 发 送 一 个 请 求 给 服务 器 ,请 求 
方式 的 格式 为 “统一 资源 标识 符 (URL) 十 协议 版 本 号 十 MIME 信息 (包括 请 求 修 饰 
符 、 客 户 机 信息 和 可 能 的 内 容 )”。 

(3) 服务 器 应 答 (response) : 服务 器 接 到 请 求 后 给 予 相应 的 响应 信息 ,其 格式 为 
“状态 行 十 通用 信息 头 十 响应 头 十 实体 类 十 报 文 主体 ”。 

(4) 关闭 连接 (close) : 客户 端 接收 服务 器 返回 的 信息 ,通过 浏览 器 显示 在 用 户 的 
显示 屏 上 ,然后 客户 机 与 服务 器 断 开 连 接 。 

如 果 以 上 过 程 中 的 某 一 步 出 现 错误 ,那么 产生 错误 的 信息 将 返回 到 客户 端 ,由 显 
示 屏 输出 。 对 于 用 户 来 说 ,这 些 过 程 是 由 HTTP 完成 的 ,用 户 只 要 用 鼠标 单 击 , 等 待 
信息 显示 就 可 以 了 。 

下 面 举 一 个 例子 来 展示 这 个 典型 的 HTTP 操作 过 程 。 

首先 在 浏览 器 上 输入 “http://www. maketop. net/resource/rs_041112_02. php”, 将 
浏览 器 连接 到 www. maketop. net 然后 发 送 : 

【 例 6-6】 HTTP 操作 。 

>> GET /resource/rs_041112_02. php HTTP1.1 

>> Host: www. maketop. net 

>> Accept: image/gif, image/x — xbitmap, image/jpeg, image/pjpeg 

>> Accept - Language: en 

>> Accept — Encoding: gzip, deflate 

>> User — Agent: Mozilla/5. 0 (Windows; U; Windows NT 5. 1; rv: 1. 7. 3) Gecko/20040913 

Firefox/0.10 

>> Connection: Keep - Alive 

> 

解释 : 浏览 器 使 用 HTTP1. 1 协议 请 求 页 面 */resource/rs_041112_02. php”, 并 
告诉 服务 器 用 户 的 浏览 器 是 Firefox 0. 10、 操 作 系 统 是 Windows XP。 浏 览 器 希望 保 
持 与 www. maketop. net 的 连接 ,并 请 求 获得 更 多 的 文件 ,包括 网 页 中 的 图 片 。 

翻译 如 下 : 

>> 用 HUTP1.1 协议 获得 "/resource/rs_041112_02. php" 

>> 访问 的 主机 : www. maketop. net 

之 接收 的 文件 : image/gif、image/x xbitmap、image/jpeg、image/pjpeg 

>> 使 用 的 语言 : en 

> 接收 的 编码 方式 (浏览 器 能 够 解释 的 ) : gzip、deflate 


>> 用 户 的 浏览 器 信息 : Windows XP 的 操作 系统 、Firefox 0.10 的 浏览 器 
沁 保持 连接 : 还 要 取 图 片 


> 
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www. maketop. net 的 服务 器 发 出 响应 : 


<< HTTP/1. 1 200 OK 

<< Date: Mon,12 Mar 2004 19:12:16 GMT 

<< Server: Apache/1.3.31 (UNIX) mod_throttle/3.1.2 
<< Last — Modified: Fri,22 Sep 2004 14:16:18 

<< ETag: "dd7b6e — d29 — 39cb69b2" 

<< Accept 一 Ranges: bytes 

<< Content - Length: 3369 

<< Connection: close 

<< Content - Type: text/html 

<< 


<< File content goes here 


浏览 器 从 服务 器 的 响应 中 获得 服务 器 的 信息 ,例如 运行 在 Apache。 
上 面 的 语言 翻译 如 下 : 

<< HTTP1.1 协议 方式 有 效 

<< 当前 时 间 : Mon, 12 Mar 2004 19:12:16 GMT 

<< 服务 器 : Apache/1.3.31 (UNIX) mod_throttle/3.1.2 
<< 最 后 一 次 修改 : Fri, 22 Sep 2004 14:16:18 

<< ETag: "dd7b6e — d29 — 39cb69b2" 

<< Accept - Ranges: bytes 

<< Content - Length: 3369 

<< Connection: close 

<< Content - Type: text/html 

<< 


<< File content goes here 


上 面 的 例子 就 是 最 简单 的 交互 过 程 描述 。 

urllib 提供 了 一 系列 用 于 操作 URL 且 进 一 步 获取 URL 所 定位 数据 文档 的 高 层 接 
口 。 其 中 ,该 模块 的 urlopen() 方 法 类 似 于 Python 的 内 置 方法 open(), 但 以 url 作为 参 
此 外 ,urllib 仅 支 持 以 只 读 方 式 打开 url, 并 且 没 有 类 似 seek() 的 方法 定义 指针 。 
urllib. request. urlopen(url[ , data[ ,proixes,[,context]]]) 用 于 打开 一 个 由 url 
标记 的 网 络 对 象 , 以 进行 读 取 。 第 1 个 参数 url 即 为 URL ,第 2 一 4 个 参数 可 以 不 传 
递 。 第 2 个 参数 data 可 用 于 传递 某 个 POST 请 求 (通常 请 求 类 型 为 GET) ,该 参数 值 
最 好 使 用 urlencode() 方 法 获取 。 第 3 个 参数 为 proxies。urlopen() 函 数 对 代理 的 使 
用 非常 透明 ,并 不 要 求 身 份 验证 。 在 UNIX 或 者 Windows 环境 下 进行 Python 编译 
之 前 ,需要 为 URL 设置 http_proxy 和 ftp_proxy 环境 变量 ,以 定位 到 目标 代理 服务 
器 。proxies 参数 应 该 设 定 为 一 个 主机 后 缀 的 逗号 分 隔 列 表 , 可 选择 在 URL 后 附加 
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“:port"。 在 Windows 环境 下 ,如 果 未 设置 代理 环境 变量 , 则 代理 设置 参数 采用 注册 

表 中 的 Internet 设置 ; 在 Mac OS X 环境 下 ,代理 设置 采用 OS X 系统 配置 框架 。 当 

然 , 用 户 也 可 以 设置 为 不 使 用 代理 。 下 面 是 一 些 使 用 HTTP 代理 的 情况 及 例子 。 
使 用 “http://tianqi. so. com/weather/101210111” 作 为 HTTP 代理 : 


>>> proxies = {'http': 'http://tiangi. so. com/weather/101210111'} 
>>> filehandle = urllib. request. urlopen( some url, proxies = proxies) 


不 使 用 HTTP 代理 : 


>>> filehandle = urllib. request. urlopen( some_url, proxies = {}) 


使 用 系统 环境 中 的 代理 设置 : 


>>> filehandle = urllib. request. urlopen( some_url, proxies = None) 
>>> filehandle = urllib. request. urlopen( some url) 


以 下 是 使 用 GET 和 POST 方法 返回 网 络 对 象 的 示例 : 

【 例 6-7】 GET 方法 。 

>>> import urllib 

>>> params = urllib. parse. urlencode({ 'spam': 1, 'eggs': 2, 'bacon': 0}) 


>>>f = urllib. requst. urlopen("http://www. musi— cal. com/cgi— bin/query? % s" % params) 
>>> print(f. read()) 


【 例 6-8〗 POST 方法 (代码 6-8. py) 。 


>>> import urllib 

>>> params = urllib. parse. urlencode({'spam': 1, 'eggs': 2, 'bacon': 0}) 

>>>f£ = urllib. request. urlopen("http://www. musi — cal. com/cgi — bin/query", params) 
>>> print(f. read()) 


此 外 ,urllib 还 有 许多 其 他 使 用 方法 。 

。 urllib. request. urlretrieve(url[ , filename[ , reportbook[ , data]]]): 用 于 将 一 
个 网 络 对 象 复制 到 本 地 文件 夹 ( 或 缓存 )。 不 过 ,如 果 url 参数 指向 本 地 文件 
或 者 一 个 当前 对 象 的 有 效 缓存 设备 , 则 这 个 对 象 不 会 被 复制 。 该 方法 返回 一 
个 元 组 (filename,headers) ,其 中 filename 是 指 本 地 文件 名 ,headers 则 保存 了 
网 络 对 象 的 info() 方 法 的 返回 值 。 
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【 例 6-9】 urllib. request. urlretrieve(url[ ,filename[ ,reportbook[ ,data]]]) 的 使 
用 方法 。 


>>> filename = urllib. request. urlretrievel( 'http://cuiqingcai. com/947. html', filename = 工 'C: 
/1. html') 

>>> type( filename) 

tuple 

>>> filename[ 0] 

'C:/1. html' 

>>> filename[1] 

<httplib. HTTPMessage instance at 0x0000000004082688> 
>>> print(filename[1]) 

Server: nginx/1.4.6 (Ubuntu) 

Data: Sat,16 Jul 2016 13:39:18GMT 

Content - Type: text/html;charset =UTF—8 

Connection: close 

X— Powered— By: PHP/5.5.9— lubuntu4.14 

Vary: Accept — Encoding,Cookie 

Cache — Control: max — age=3,must — revalidate 

WP - Super — Cache: Served supercache file from PHP 


。 urllib. request. urlcleanup(): 用 于 清除 之 前 引用 urlretrieve() 方 法 产生 的 缓存 。 
。 urllib. parse. quote(string[ ,safe]): 用 %xx 代替 字符 串 中 的 一 些 特殊 字符 。 
【 例 6-10】 urllib. parse. quote(string[ ,safe]) 的 使 用 方法 。 
>>> urllib. parse. quote( 'http://www. cnblogs. com/sysu — blackbear/p/3629420. html') 


‘http % 3A//www. cnblog. com/sysu — blackbear/p/3629420. html' 
# 使 用 %3A 代替 冒号 


。 urllib. parse. quote_plus(string[L ,safe]) :和 urllib. quote(string[ ,safe]) 类 似 ， 
不 过 字符 串 中 的 空格 使 用 十 代替 。 
【 例 6-11】 urllib. parse. quote_plus(string[ ,safe]) 的 使 用 方法 。 
>>> urllib. parse.quote_plus('http://www. cnblogs. com/sysu - blackbear/p/3629 420. html') 


‘http % 3A//www. cnblogs. com/sysu — blackbear/p/3629 + 420.html' 
# 使 用 %3A 代替 冒号 ,并 使 用 + 代替 空格 


。 urllib. parse. unquote(string) : urllib. quote() 的 逆 操 作 。 
【 例 6-12】 urllib. parse. unquote(string) 的 使 用 方法 。 


>>> urllib. parse. unquote( 'http % 3A//www. cnblogs. com/sysu — blackbear/p/3629420. html7) 
'http://www. cnblogs. com/sysu — blackbear/p/3629420. html' 
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。 urllib. parse. unquote_plus(string) : urllib. quote_plus() 的 道 操作 。 
【 例 6-13】 urllib. parse. unquote_plus(string) 的 使 用 方法 。 


>>> urllib. parse. unquote plus( 'http % 3MM /www. cnblogs. com/sysu — blackbear/p/3629 + 420.html') 
'http://wuw. cnblogs. com/sysu — blackbear/p/3629 420. html' 


。 urllib. parse. urlencode(query[ ,doseq]) : 用 于 将 一 个 映射 对 象 或 者 一 个 两 元 
素 元 组 序列 转化 为 一 个 由 % 编 码 的 字符 串 ,传递 给 urlopen() 作 为 可 选 声明 
data 的 值 。 

【 例 6-14】 urllib. parse. urlencode(query[ ,doseq]) 的 使 用 方法 (代码 6-14. py) 。 
>>> params = urllib. parse. urlencode({'egg':1, 'fruit':2, 'bird':3}) 


>>> params 
'egg= 18fruit = 2&bird= 3， 


到 目前 为 止 , 读 者 可 能 已 经 发 现 ,urllib 把 HTTP 协议 的 3 个 步骤 (建立 连接 、 发 
出 请 求 和 收 到 响应 ) 统 一 在 urlopen() 方 法 中 实现 。 然 而 ,在 很 多 情况 下 这 并 不 能 保 
证 可 以 顺利 获取 目标 URL 对 应 的 数据 文件 。 现 在 大 多 数 网 站 都 是 动态 网 页 ,在 获取 
网 页 的 过 程 中 需要 动态 地 传递 参数 , 它 再 对 此 做 出 相应 的 响应 。 所 以 ,在 访问 一 些 网 
页 时 需要 传递 数据 。 

Python 标准 库 中 的 另 一 个 URL 处 理 包 urllib2 可 以 构建 一 个 Request 类 的 实例 
来 设置 URL 请 求 的 Headers ,因此 可 通过 urllib 模块 伪装 浏览 器 ,进而 能 处 理 更 复杂 
的 HTTP 访问 。 当 然 ,urllib2 不 能 代替 urllib ,例如 urllib 并 没有 提供 urlencode( ) 方 
法 用 来 生成 GET 查询 字符 串 , 且 urllib. urlretrieve() 函数 以 及 urllib. quote() 等 一 系 
列 quote() 和 unquote() 方 法 都 没有 加 入 到 urllib2。 这 也 是 在 实际 应 用 中 一 起 使 用 
urllib 和 urllib2 的 原因 。 


6.4 利用 BeautifulSoup4 解析 HTML 文档 


在 利用 urllib 获取 目标 HTML 文档 之 后 , 接 下 来 就 要 对 文档 中 的 内 容 进 行 析 
取 。 关 键 问 题 在 于 ,HTML 文档 中 有 很 大 一 部 分 内 容 是 用 于 设置 文档 呈现 形式 的 ， 
而 这 部 分 内 容 在 很 多 情况 下 并 不 被 用 户 关心 。 用 户 关 心 更 多 的 可 能 是 网 页 正文 内 
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容 中 的 某 些 信息 ,或 者 网 页 内 的 超 链接 。 用 户 可 以 使 用 Python 标准 库 中 的 re 模 
块 ,通过 构建 模式 对 象 的 方式 析 取 出 满足 用 户 需求 的 文本 。 然 而 ,在 实践 中 并 不 推 
荐 用 户 使 用 这 种 方法 。re 模式 的 构建 较为 复杂 , 且 构 建 好 的 模式 难以 推广 到 多 个 
案例 中 。 

Python 的 第 三 方 库 BeautifulSoup 在 处 理 HTML 和 XML 编码 文档 方面 的 表现 
非常 优秀 。BeautifulSoup 是 一 个 可 以 从 HTML 或 XML 文件 中 提取 数据 的 Python 
库 , 它 能 够 通过 用 户 喜 欢 的 转换 器 实现 惯用 的 文档 导航 、 查 找 、 修 改 文 档 等 功能 。 
BeautifulSoup 模块 可 以 很 好 地 处 理 不 规范 标记 并 生成 剖析 树 , 且 提供 简单 又 常用 的 
导航 、 搜 索 以 及 修改 剖析 树 的 操作 ,特别 是 BeautifulSoup 的 一 些 关 键 函 数 可 以 结合 
正则 表达 式 re 模块 中 的 模式 或 者 使 用 CSS 查询 器 语法 ,在 很 大 程度 上 减少 了 用 户 花 
在 编程 上 的 时 间 。 

BeautifulSoup 将 复杂 的 HTML 或 XML 转化 成 树 形 结 构 ,每 个 结 点 都 是 Python 
对 象 。 这 里 借用 官方 文档 中 的 一 个 例子 来 对 BeautifulSoup4 的 属性 和 方法 进行 演 
示 。 这 是 (爱丽 丝 梦 游 仙境 》 中 的 一 段 内 容 。 

Be 

< html >< head>< title> The Dormouse's story </title></head> 


<body> 
<p class = "title"><b> The Dormouse's story </b></p> 


<p class = "story"> Once upon a time there were three little sisters; and their names were 
<a href = "http://example. com/elsie" class = "sister" id = "linkl"> Elsie</a>, 

<a href = "http://example. com/lacie" class = "sister" id = "link2"> Lacie </a> and 

<a href = "http://example. com/tillie" class = "sister" id= "link3"> Tillie </a>; 

and they lived at the bottom of a well.</p> 


<p class = "story">...</p> 


使 用 BeautifulSoup 解析 这 段 代 码 能 够 得 到 一 个 BeautifulSoup 的 对 象 , 并 能 按 
照 标准 缩 进 格式 的 结构 输出 : 

【 例 6-15】 BeautifulSoup 模块 的 使 用 。 

> Erou be4 inport BeautifulSoup 

>>> soup = BeautifulSoup(html doc, ‘html. parser') 


>>> print(soup. prettify()) 
<html > 
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<head> 
<title> 
The Dormouse's story 
</title> 
</head> 
<body> 
<pclass= "title"> 
es 
The Dormouse's story 
</b> 
</p> 
<pclass= "story"> 
Once upon a time there were three little sisters; and their names were 
<aclass= "sister" href = "http://example. com/elsie" id= "link1"> 
Elsie 
</a> 
<aclass= "sister" href = "http://example. com/lacie" id= "link2"> 
Lacie 
</a> 
and 
<aclass= "sister" href = "http://example. com/tillie" id= "link2"> 
Tillie 
</a> 
; and they lived at the bottom of a well. 
</p> 
<p class = "story"> 
</p> 
</body> 
</html > 


6.4.1 BeautifulSoup4 中 的 对 象 


BeautifulSoup 将 复杂 的 HTML 文档 转换 成 一 个 复杂 的 树 形 结构 ， 
每 个 结 点 都 是 Python 对 象 ,所 有 对 象 可 以 归纳 为 4 种 , 即 Tag、 视频 讲解 


NavigableString ,BeautifulSoup 和 Comment。 
1. Tag 对 象 


BeautifulSoup 中 的 Tag 对 象 与 XML 或 HTML 原生 文档 中 的 Tag 相同 。Tag 
对 象 通过 . Tag 的 方式 获取 对 应 类 别 的 第 一 个 标签 对 象 : 


Pe 流 其 ( ) 
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【 例 6-16】 Tag 对 象 的 介绍 。 


>>> soup = BeautifulSoup( '<b class = "boldest"> Extremely bold </b>') 
>>> tag = soup.b 

>>> typeltag) 

<class 'bs4.element.Tag> 


Tag 有 很 多 方法 和 属性 ,现在 介绍 一 下 其 最 重要 的 属性 name 和 attributes。 首 
先 讲解 name 属性 。 

每 个 Tag 都 有 自己 的 名 字 ,通过 . name 来 获取 : 

>>> tag. name 

如 果 改 变 了 Tag 的 name, 将 影响 所 有 通过 当前 BeautifulSoup 对 象 生 成 的 
HTML 文档 : 

>>> tag. name = "blockquote" 


>>> tag 
<blockquote class = "boldest"> Extremely bold </blockquote> 


接 下 来 讲解 attributes 属性 。 一 个 Tag 可 能 有 很 多 个 属性 。 在 tag <b class 一 
"boldest"> 中 有 一 个 "class” 属 性 , 值 为 "boldest?。Tag 属性 的 操作 方法 与 字典 相同 : 


>>> tag[ 'class'] 
['bddest'] 


用 户 也 可 以 直接 “点 ” 取 属 性 ,例如 *. attrs”: 


>>> tag.attrs 
{'class': ['boldest']} 


Tag 的 属性 可 以 被 添加 、 删 除 或 修改 。 青 说 一 次 ,Tag 属性 的 操作 方法 与 字典 
一 样 。 
>>> tag[ 'class'] = "verybold' 


>>> tag[ 'id'] =1 
>>> tag 
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<blockquote class = "verybold" id = "1"> Extremely bold </blockquote> 
>>> del tag[ 'class'] 

>>> del tag[ 'id'] 

>>> tag 

< blockquote > Extremely bold </blockquote> 


如 果 引 用 了 Tag 中 一 个 不 存在 的 属性 , 则 返回 None: 


>>> tag[ 'class'] 

KeyError: 'class' 

>>> print(tag. get( 'class')) 
None 


2. NavigableString 对 象 


接 下 来 可 通过 . string 获取 标签 中 的 文本 内 容 , 文 本 类 型 为 NavigableString。 字 
符 串 常 被 包含 在 Tag 内 。BeautifulSoup 用 NavigableString 类 来 包装 Tag 中 的 字 
符 串 : 

【 例 6-17】 NavigableString 对 象 的 介绍 。 

>>> tag. string 

Extremely bold 


>>> type(tag. string) 
<class 'bs4.element. NavigableString> 


Tag 中 包含 的 字符 串 不 能 编辑 ,但 是 可 以 被 替换 成 其 他 字符 串 , 用 replace_with() 
方法 : 
>>> tag. string. replace with("No longer bold") 


>>> tag 
< blockquote > No longer bold </blockquote > 


3.BeautifulSoup 对 象 


BeautifulSoup 对 象 表示 的 是 一 个 文档 的 全 部 内 容 ,在 大 部 分 时 候 ,可 以 把 它 当 作 
Tag 对 象 , 它 支持 遍历 文档 树 和 搜索 文档 树 中 描述 的 大 部 分 方法 。 

因为 BeautifulSoup 对 象 并 不 是 真正 的 HTML 或 XML 的 Tag, 所 以 它 没有 
name 和 attribute 属性 。 但 有 时 查看 它 的 . name 属性 是 很 方便 的 ,所 以 BeautifulSoup 
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对 象 包含 了 一 个 值 为 “Ldocument]” 的 特殊 属性 . name: 
【 例 6-18】 BeautifulSoup 对 象 的 介绍 。 


>>> soup. name 
[document] 


4. Comment 对 和 象 


Tag、NavigableString、BeautifulSoup 几乎 覆盖 了 HTML 和 XML 中 的 所 有 内 
容 , 但 还 有 一 些 特殊 对 象 容易 让 人 担心 内 容 是 文档 的 注释 部 分 。Comment 对 象 是 一 
种 特殊 类 型 的 NavigableString 对 象 。 

【 例 6-19】 Comment 对 象 的 介绍 。 


>>> markup = "<b><! -- Hey, buddy. Want to buy a used parser? -一 ></b>" 
>>> soup = BeautifulSoup(markup) 

>>> Comment = Soup.b. string 

>>> type(comment) 

<class 'bs4.element. Comment > 


当 它 出 现在 HTML 文档 中 时 ,Comment 对 象 会 使 用 特殊 的 格式 输出 : 


>>> print(soup.b.prettify()) 

<b> 

<! -- Hey, buddy. Want to buy a used parser? -一 > 
</b> 


0 


FE 


.2 遍历 文档 树 


一 个 标签 可 能 包含 许多 字符 串 或 者 其 他 标签 ,从 文档 树 的 视角 看 ， 本 
这 些 都 是 该 标签 的 子 结 点 。 通 过 Tag 方法 可 以 获取 标签 对 象 的 子 结 点 ”视频 讲解 
标签 ,并 且 可 在 一 个 语句 中 多 次 使 用 。 通 过 . string 方法 可 获取 标签 对 象 的 字符 捉 子 
结 点 。BeautifulSoup 提供 了 许多 操作 和 遍历 子 结 点 的 属性 。 注 意 , BeautifulSoup 中 
的 字符 串 结 点 不 支持 这 些 属性 ,因为 字符 串 没有 子 结 点 。 

这 里 仍 用 (爱丽 丝 梦 游 仙境 ) 文 档 来 做 例子 : 

【 例 6-20】 遍历 文档 树 示例 。 


html doc=""" 
<html >< head >< title > The Dormouse's story </title></head> 
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<body> 
<Pp class = "title"><b> The Dormouse's story </b></p> 
<p class = "story"> Once upon a time there were three little sisters; and their names were 
<a href = "http://example. com/elsie" class = "sister" id= "linkl"> Elsie</a>, 
<a href = "http://example. com/lacie" class = "sister" id = "link2"> Lacie </a> and 
<a href = "http://example.com/tillie" class= "sister" id= "link3"> Tillie </a>; 
and they lived at the bottom of a well.</p> 
<p class = "story">...</p> 


>>> from bs4 import BeautifulSoup 
>>> soup = BeautifulSoup(htm]_doc, 'htm1.parser') 


通过 这 个 例子 演示 了 怎样 从 文档 的 一 段 内 容 找到 另 一 段 内 容 。 
操作 文档 树 最 简单 的 方法 就 是 告诉 它 想 获取 的 Tag 的 name。 如 果 想 获取 < head > 
标签 ,只 要 用 soup. head: 


>>> soup. head 

<head>< title> The Dormouse's story </title></head> 
>>> soup. title 

<title> The Dormouse's story </title> 


下 面 的 代码 可 以 获取 < body > 标签 中 的 第 一 个 < b > 标签 : 


>>> soup.body.b 
<b> The Dormouse's story </b> 


通过 点 取 属性 的 方式 只 能 获得 当前 名 字 的 第 一 个 Tag: 


>>> soup.a 
<a class = "sister”href = "http://example. com/elsie" id= "linkl"> Elsie </a> 


如 果 想 要 得 到 所 有 的 < a > 标签 ,或 者 通过 名 字 得 到 比 一 个 Tag 更 多 的 内 容 , 则 需 
要 用 到 其 他 方法 ,例如 find_all() : 


>>> soup. find all('a') 

[<a class = "sister" href = "http://example. com/elsie" id= "link1"> Elsie</a>, 
<a class = "sister" href = "http://example. com/lacie" id= "link2"> Lacie </a>, 
<a class = "sister" href = "http://example. com/tillie" id= "link3"> Tillie </a>] 
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1. .contents 和 . children 


Tag 的 . contents 属性 可 以 将 Tag 的 子 结 点 以 列表 的 方式 输出 : 
【 例 6-21】 . contents 和 . children 的 介绍 。 


>>> head_tag = soup. head 

>>> head tag 

<head>< title> The Dormouse's story </title></head> 
>>> head tag. contents 

[<title> The Dormouse's story </title>] 

>>> title tag = head tag. contents[0] 

>>> title tag 

<title> The Dormouse's story </title> 

>>> title tag. contents 

[The Dormouse's story] 


BeautifulSoup 对 象 本 身 一 定 会 包含 子 结 点 ,也 就 是 说 < html > 标签 也 是 
BeautifulSoup 对 象 的 子 结 点 : 

>>> len( soup. contents) 

区 


>>> soup. contents[0].name 
html 


字符 串 没有 . contents 属性 ,因为 字符 串 没有 子 结 点 : 


>>> text = title_tag. contents[0] 
>>> text. contents 
AttributeError: 'NavigableString' object has no attribute 'contents 


通过 Tag 的 . children 生成 器 可 以 对 Tag 的 子 结 点 进行 循环 : 


>>> for child in title tag. children: 
print(child) 
The Dormouse's story 


2. .descendants 


. contents 和 . children 属性 仅 包 含 Tag 的 直接 子 结 点 。 例 如 ,< head > 标签 只 有 
一 个 直接 子 结 点 < title >: 
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【 例 6-22】 . descendants 的 介绍 。 


>>> head tag. contents 
[< title > The Dormouse's story </title>] 


但 是 < title > 标签 也 包含 一 个 子 结 点 一 一 字符 串 "The Dormouse's story" ,在 这 种 
情况 下 字符 串 "The Dormouse's story" 属 于 < head > 标签 的 子孙 结 点 。. descendants 属 
性 可 以 对 所 有 Tag 的 子孙 结 点 进行 递归 循环 : 

>>> for child in head tag. descendants: 

print(child) 


<title> The Dormouse's story </title> 
The Dormouse's story 


在 上 面 的 例子 中 , < head > 标签 只 有 一 个 子 结 点 ,但 是 有 两 个 子孙 结 点 -一 
< head > 结 点 和 < head > 的 子 结 点 ,BeautifulSoup 有 一 个 直接 子 结 点 (< html > 结 点 )， 
却 有 很 多 子孙 结 点 : 

>>> len(list(soup. children)) 

得 


>>> len( list(soup. descendants) ) 
25 


3. .string 


如 果 Tag 只 有 一 个 NavigableString 类 型 的 子 结 点 ,那么 这 个 Tag 可 以 使 用 
. string 得 到 子 结 点 : 
【 例 6-23】 . string 的 介绍 。 


>>> title tag. string 
The Dormouse's story 


如 果 一 个 Tag 仅 有 一 个 子 结 点 ,那么 这 个 Tag 也 可 以 使 用 . string 方法 ,输出 结 
果 与 当前 唯一 子 结 点 的 . string 结果 相同 : 


>>> head_tag. contents 

[<title> The Dormouse's story </title>] 
>>> head tag. string 

The Dormouse's story 
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如 果 Tag 包含 了 多 个 子 结 点 ,Tag 将 无 法 确定 . string 方法 应 该 调用 哪个 子 结 点 
的 内 容 ，. string 的 输出 结果 是 None: 


>>> print( soup. html. string) 
None 


4. .strings 和 . stripped_strings 


如 果 Tag 中 包含 多 个 字符 串 ,可 以 使 用 . strings 循环 获取 : 
【 例 6-24】〗】 . strings 和 . stripped_strings 示例 。 


>>> for string in soup. strings: 
print(repr(string)) 
The Dormouse's story 
\n\n' 
The Dormouse's story 
ANnNn， 
'Once upon a time there were three little sisters; and their names wereNn' 
"了 lsie' 
人 
"Tacie' 
esa 
'Tillie’ 
';\nand they lived at the bottom of a well.’ 
\n\n' 


An' 


在 输出 的 字符 串 中 可 能 包含 了 很 多 空格 或 空 行 , 使 用 . stripped_strings 可 以 去 除 
多 余 的 空白 内 容 ， 


>>> for string in soup. stripped strings: 
print(repr(string) ) 
The Dormouse's story 
The Dormouse's story 
"Once upon a time there were three little sisters; and their names were' 
'Elsie' 
i 
'Lacie' 
on 
'Tillie' 
';\nand they lived at the bottom of a well.”' 
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这 样 ,全 部 是 空格 的 行 会 被 忽略 掉 , 段 首 和 段 末 的 空白 会 被 删除 。 
上 面 介 绍 了 如 何 用 BeautifulSoup 对 象 和 Tag 对 象 的 属性 遍历 文档 树 , 但 这 只 是 


一 部 分 ,更 多 可 用 属性 见 表 6. 3。 
表 6.3 文档 搜索 属性 

属 性 描 述 
. contents 可 以 将 Tag 的 子 结 点 以 列表 的 方式 输出 
. children 生成 器 ,可 以 对 Tag 的 子 结 点 进行 循环 
. descendants 可 以 对 所 有 Tag 的 子孙 结 点 进行 递归 循环 
. strings 如 果 Tag 中 包含 多 个 字符 串 , 可 以 使 用 . strings 循环 获取 
Ne 输出 的 字符 串 中 可 能 包含 了 很 多 空格 或 空 行 ,使 用 . stripped_strings 可 以 去 

除 多 余 的 空白 内 容 

. parent 获取 某 个 元 素 的 父 结 点 
. parents 可 以 递归 得 到 元 素 的 所 有 父辈 结 点 
. next_sibling 查询 下 一 个 兄弟 结 点 ; 如 果 没 有 , 则 返回 None 
. previous_sibling 查询 上 一 个 兄弟 结 点 ; 如 果 没 有 , 则 返回 None 
.next_siblings 向 后 迭代 当前 结 点 的 兄弟 结 点 
. previous_siblings 向 前 迭代 当前 结 点 的 兄弟 结 点 
+ next_element 指向 解析 过 程 中 下 一 个 被 解析 的 对 象 
. previous_element 指向 当前 被 解析 的 对 象 的 前 一 个 解析 对 象 
. next_elements 通过 . next_elements 的 迭代 器 就 可 以 向 后 访问 文档 的 解析 内 容 


. previous_elements 通过 . previous_elements 的 迭代 器 就 可 以 向 前 访问 文档 的 解析 内 容 


6.4.3 搜索 文档 树 


BeautifulSoup 定义 了 很 多 搜索 方法 ,这 里 着 重 介绍 find() 和 find_ 
all() 方 法 ,其 他 方法 的 参数 和 用 法 与 它们 类 似 。 

这 里 仍 以 (爱丽 丝 梦游 仙境 ;文档 作为 例子 。 

【 例 6-25】 搜索 文档 树 的 介绍 。 


html_doc=""" 

< html >< head >< title> The Dormouse's story </title></head> 

<body> 

<Pp class = "title">< b > The Dormouse's story </b></p> 

<p class = "story"> Once upon a time there were three little sisters; and their names were 
<a href = "http://example. com/elsie" class = "sister" id= "linkl"> Elsie </a>, 

<a href = "http://example. com/lacie" class = "sister" jd = "link2"> Lacie </a> and 

<a href = "http://example. com/tillie" class = "sister" id= "link3"> Tillie </a>; 

and they lived at the bottom of a well.</p> 

<p class= "story">...</p> 
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from bs4 import BeautifulSoup 
soup = BeautifulSoup(htm]_ doc, 'htm]l. parser') 


使 用 find_all() 方 法 可 以 查找 到 想 要 查找 的 文档 内 容 。 
在 介绍 find_all() 方 法 之 前 先 介绍 一 下 过 滤器 的 类 型 ,这 些 过 滤器 贯穿 整个 搜索 
的 API。 过 滤器 可 以 被 用 在 Tag 的 name 中 、 结 点 的 属性 中 ,字符 串 中 或 它们 的 混合 


中 ,具体 见 表 6. 4。 
表 6.4 过 滤器 类 型 
参数 类 型 描 述 
字符 串 最 简单 的 过 滤器 ,匹配 标签 或 文本 内 容 ,返回 列表 
正则 表达 式 通过 正则 表达 式 的 match() 匹 配 标签 或 文本 内 容 , 返 回 列表 
列表 返回 所 有 与 列表 元 素 匹配 的 标签 或 文本 内 容 
True 匹配 标签 或 文本 内 容 的 任何 值 ,返回 列表 
函数 若 无 合 适 的 过 滤器 ,定义 一 个 只 接受 一 个 元 素 参 数 且 返回 逻辑 值 True 或 
False 的 函数 ,进而 匹配 满足 特定 条 件 的 标签 或 文本 内 容 , 返 回 列表 
1. 字符 串 


最 简单 的 过 滤器 是 字符 串 。 在 搜索 方法 中 传人 一 个 字符 串 参数 , BeautifulSoup 
会 查找 与 字符 串 完整 匹配 的 内 容 。 下 面 的 例子 用 于 查找 文档 中 所 有 的 < b > 标签 : 


【 例 6-26】 


字符 串 的 介绍 。 


>>> soup. find all( 'b') 
[<b> The Dormouse's story </b>] 


如 果 传 人 字 节 码 参 数 , BeautifulSoup 会 当成 UTF-8 编码 ,可 以 通过 传人 一 段 
Unicode 编码 来 避免 BeautifulSoup 解析 编码 出 错 。 


2. 正则 表达 式 


如 果 传 人 正则 表达 式 作为 参数 ,BeautifulSoup 会 通过 正则 表达 式 的 match() 来 
匹配 内 容 。 在 下 面 的 例子 中 找 出 所 有 以 *b? 开 头 的 标签 ,这 表示 < body > 和 < b> 标签 


都 应 该 被 找到 : 


【 例 6-27】 


>>> import re 


正则 表达 式 的 介绍 。 


>>> for tag in soup. find all(re.compile("^b") ) : 
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print(tag. name) 


下 面 的 代码 找 出 名 字 中 包含 “t" 的 所 有 标签 : 


>>> for tag in soup. find all(re. compile("t")): 
print(tag. name) 

html 

title 


3. 列表 


如 果 传 人 列表 参数 ,BeautifulSoup 会 将 与 列表 中 任 一 元 素 匹 配 的 内 容 返回 。 下 
面 的 代码 找到 文档 中 所 有 的 < a > 标签 和 < b > 标签 : 

【 例 6-28】 列表 的 介绍 。 

>>> soup. find all(["a","b"]) 

[<b> The Dormouse's story </b>, 

<a class = "sister" href = "http://example. com/elsie" id= "linkl"> Elsie </a>, 


<a class = "sister" href = "http://example. com/lacie" id = "link2"> Lacie </a>, 
<aclass = "sister" href = "http://example.com/tillie" id= "link3"> Tillie </a>] 


4. True 


True 可 以 匹配 任何 值 ,下 面 的 代码 查找 出 所 有 的 Tag ,但 是 不 会 返回 字符 串 结 点 。 
【 例 6-29】 True 的 介绍 。 


>>> for tag in soup. find all(True): 
print(tag. name) 
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5. 函数 


如 果 没 有 合适 的 过 滤器 ,还 可 以 定义 一 个 方法 ,方法 只 接受 一 个 元 素 参数 。 如 果 
这 个 方法 返回 True, 表 示 当 前 元 素 匹 配 并 且 被 找到 ,如 果 不 是 , 则 返回 False。 

下 面 的 方法 检验 了 当前 元 素 , 如 果 包 含 class 属性 却 不 包含 id 属性 ,那么 将 返回 
True: 


【 例 6-30】 函数 的 介绍 。 


>>> def has_class but no_id(tag): 
return tag. has_attr( 'class') and not tag. has_attr('id') 


将 这 个 方法 作为 参数 传人 find_all() 方 法 ,将 得 到 所 有 < p > 标签 : 


>>> soup. find al1(has_class_but_no_id) 

[<p class = "title"><b> The Dormouse's story </b></p>, 
<p class = "story"> Once upon a time there were...</p>, 
<p class = "story">...</p>] 


在 返回 结果 中 只 有 < p > 标签 没有 < a > 标签 ,因为 < a > 标签 还 定义 了 "id”; 没有 返 
回 < html > 和 < head >, 因 为 < html > 和 < head > 中 没有 定义 “class” 属 性 。 

在 通过 一 个 方法 过 滤 一 类 标签 属性 的 时 候 , 这 个 方法 的 参数 是 要 被 过 滤 的 属性 
的 值 ,而 不 是 这 个 标签 。 下 面 的 例子 是 找 出 href 属性 不 符合 指定 正则 表达 式 的 < a > 
标签 : 

>>> def not lacie(href): 

return href and not re. compile("lacie"). search(href) 
>>> soup. find all(href = not lacie) 


[<a class = "sister" href = "http://example. com/elsie" id= "link1"> Elsie</a>, 
<a class = "sister" href = "http://example. com/tillie" id= "link3"> Tillie </a>] 


标签 过 滤 方 法 可 以 使 用 复杂 方法 。 下 面 的 例子 可 以 过 滤 出 前 、 后 都 有 文字 的 
标签 : 
>>> from bs4 import NavigableString 


>>> def surrounded by strings(tag): 
return (isinstance(tag. next element, NavigableString) 
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and isinstance(tag. previous element, NavigableString)) 


>>> for tag in soup. find al1(surrounded by strings): 
print tag. name 


Toy nu nm 


下 面 来 了 解 搜索 方法 find_all() 的 细节 ,其 格式 如 下 : 


find all(name,attrs, recursive, string, ** kwargs) 


find_all() 方 法 搜索 当前 Tag 的 所 有 Tag 子 结 点 ,并 判断 是 否 符合 过 滤器 的 条 
件 。 这 里 有 几 个 例子 : 
【 例 6-31】 find_all0) 的 介绍 。 


>>> soup. find all("title") 

[<title > The Dormouse's story </title>] 

>>> soup. find all("p", "title") 

[<p class= "title"><b> The Dormouse's story </b></p>] 

>>> soup. find all("a") 

[<aclass= ter" href = "http://example. com/elsie" id= "linkl"> Elsie</a>, 
<aclass = "sister" href = "http://example. com/lacie" id = "link2"> Lacie </a>, 
<a class = "sister" href = "http://example. com/tillie" id= "link3"> Tillie </a>] 
>>> soup. find all(id= "link2") 

[<a class = "sister" href = "http://example. com/lacie" id= "link2"> Lacie</a>] 
>>> import re 

>>> soup. find(string = re. compile("sisters")) 

'Once upon a time there were three little sisters; and their names wereNn' 


这 里 有 几 个 方法 很 相似 ,还 有 几 个 方法 是 新 的 ,参数 中 的 string 和 id 是 什么 含 
义 ? 为 什么 find_all("p","title") 返 回 的 是 CSS class 为 "title 的 < p > 标签 ? 接 下 来 
仔细 看 一 下 find_all() 的 参数 。 

name 参数 可 以 查找 所 有 名 字 为 name 的 Tag, 字 符 串 对 象 会 被 自动 忽略 掉 。 其 
简单 的 用 法 如 下 : 


>>> soup. find all("title") 
[<title> The Dormouse's story </title>] 
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注意 ,name 参数 的 值 可 以 是 任 一 类 型 的 过 滤器 .字符 串 、 正 则 表达 式 、 列 表 、 方 法 
或 者 True。 

如 果 一 个 指定 名 字 的 参数 不 是 搜索 内 置 的 参数 名 ,在 搜索 时 会 把 该 参数 当 作 指 
定名 字 Tag 的 属性 来 搜索 ,如 果 包 含 一 个 名 字 为 id 的 参数 ,BeautifulSoup 会 搜索 每 
个 Tag 的 “id” 属 性 : 


>>> soup. find all(id= 'link2') 
[<a class = "sister" href = "http://example.com/lacie" id= "link2"> Lacie </a>] 


如 果 传 人 href 参数 ,BeautifulSoup 会 搜索 每 个 Tag 的 “href” 属 性 : 


>>> soup. find all(href = re. compile("elsie")) 
[<a class = "sister" href = "http://example. com/elsie" id= "link1"> Elsie </a>] 
在 搜索 指定 名 字 的 属性 时 可 以 使 用 的 参数 值 包括 字符 串 、 正 则 表达 式 、 列 表 、 


True。 


下 面 的 例子 在 文档 树 中 查找 所 有 包含 id 属性 的 Tag ,而 无 论 id 的 值 是 什么 : 


>>> soup. find all(id= True) 

[<a class = "sister" href = "http://example.com/elsie" id= "link1"> Elsie </a>, 
<aclass = "sister" href = "http://example.com/lacie" id = "link2"> Lacie </a>, 
<a class = "sister”href = "http://example. com/tillie" id= "link3"> Tillie </a>] 


使 用 多 个 指定 名 字 的 参数 可 以 同时 过 滤 Tag 的 多 个 属性 : 


>>> soup. find all(href = re. compile("elsie"), id= 'link1') 
[<a class = "sister" href = "http://example. com/elsie" id= "link1"> three </a>] 


有 些 Tag 属性 在 搜索 时 不 能 使 用 ,例如 HTML5 中 的 data-* 属性 : 


>>> data_soup = BeautifulSoup( '< div data - foo = "value"> foo!</div >') 

>>> data_soup. find all(data- foo= "value") 

SyntaxError: keyword can't be an expression 

但 是 可 以 通过 find_all() 方 法 的 attrs 参数 定义 一 个 字典 参数 来 搜索 包含 特殊 属 
性 的 Tag: 


>>> data_soup. find all(attrs= {"data— foo": "value"}) 
[<div data ~ foo = "value"> foo!</div >] 
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按照 CSS 类 名 搜索 Tag 的 功能 非常 实用 ,但 标识 CSS 类 名 的 关键 字 class 在 
Python 中 是 保留 字 ,使 用 class 做 参数 会 导致 语法 错误 。 从 BeautifulSoup 的 4.1.1 
版 本 开始 ,可 以 通过 class_ 参数 搜索 有 指定 CSS 类 名 的 Tag: 


>>> soup. find all("a",class = "sister") 

[<a class = "sister" href = "http://example.com/elsie" id= "linkl"> Elsie </a>, 
<a class = "sister" href = "http://example. com/lacie" id= "link2"> Lacie </a>, 
<aclass= "sister" href = "http://example. com/tillie" id="link3"> Tillie </a>] 


class_ 参 数 同样 接受 不 同类 型 的 过 滤器 、 字 符 串 正则 表达 式 ,方法 或 True: 


>>> soup. find all(class_= re.compile("itl")) 
[<p class = "title"><b> The Dormouse's story </b></p>] 
>>> def has_six characters(css_class): 
return css_class is not None and len(css_class) == 
soup. find all(class_ = has_six_ characters) 
[<a class = "sister" href = "http://example. com/elsie" id= "link1l"> Elsie </a>, 
<aclass= "sister" href = "http://example. com/lacie" id= "link2"> Lacie </a>, 
<aclass= "sister" href = "http://example. com/tillie" id= "link3"> Tillie </a>] 


Tag 的 class 属性 是 多 值 属性 。 在 按照 CSS 类 名 搜索 Tag 时 ,可 以 分 别 搜索 Tag 
中 的 每 个 CSS 类 名 : 


>>> css_soup = BeautifulSoup('< p class = "body strikeout"></p>') 
>>> css_soup. find all("p",class_ = "strikeout") 

[<p class = "body strikeout"></p>] 

>>> css_soup. find all("p",class_= "body") 

[<p class = "body strikeout"></p>] 


在 搜索 class 属性 时 也 可 以 通过 CSS 值 完全 匹配 : 


>>> css_soup. find all("p",class_= "body strikeout") 
[<p class = "body strikeout"></p>] 


当 完全 匹配 class 的 值 时 ,如 果 CSS 类 名 的 顺序 与 实际 不 符 ,将 搜索 不 到 结果 : 


>>> soup. find all("a",attrs= {"class": "sister"}) 

[<a class = "sister" href = "http://example. com/elsie" id= "link1"> Elsie</a>, 
<aclass= "sister" href = "http://example. com/lacie" id= "link2"> Lacie </a>, 
<a class = "sister" href = "http://example. com/tillie" id= "link3"> Tillie </a>] 


| 第 6 章 ”网 络 数 据 的 获取 (175) 
OO 


通过 string 参数 可 以 搜索 文档 中 的 字符 串 内 容 。 与 name 参数 的 可 选 值 一 样 ， 
string 参数 接受 字符 串 .正则 表达 式 ,列表 、True。 例 如 : 


>>> soup. find all(string= "Elsie") 

[u'Elsie'] 

>>> soup. find all(string= ["Tillie", "Elsie", "Lacie"]) 

[u'Elsie',u'Lacie',u'Tillie'] 

>>> soup. find all(string = re. compile( "Dormouse")) 

[u"The Dormouse's story",u"The Dormouse's story"] 

>>> def is_the only string within a tag(s): 
""Return True if this string is the only child of its parent tag."" 
return (s== s. parent. string) 

>>> soup. find all(string= is_the only string within a tag) 

[u"The Dormouse's story",u"The Dormouse's story",u'Elsie',u'Lacie',u'Tillie',u'...'] 


string 参数 用 于 搜索 字符 串 , 还 可 以 与 其 他 参数 混合 使 用 。 下 面 的 代码 用 来 搜 
索 内 容 里 面包 含 “Elsie” 的 < a > 标签 


>>> soup. find all("a",string= "Elsie") 
[<a href = "http://example. com/elsie" class = "sister" id= "linkl"> Elsie</a>] 


find_all() 方 法 返回 全 部 的 搜索 结果 ,如 果 文 档 树 很 大 ,那么 搜索 会 很 慢 。 如 果 用 
户 不 需要 全 部 结果 ,可 以 使 用 limit 参数 限制 返回 结果 的 数量 。 其 效果 与 SQL 中 的 
limit 关键 字 类 似 , 当 搜索 到 的 结果 数量 达到 limit 的 限制 时 就 停止 搜索 返回 结果 。 

在 该 文档 树 中 有 3 个 Tag 符合 搜索 条 件 , 但 结果 只 返回 了 两 个 ,因为 限制 了 返回 
数量 : 


>>> soup. find all("a", limit = 2) 
[<a class = "sister" href = "http://example. com/elsie" id= "linkl"> Elsie </a>, 
<a class = "sister" href = "http://example. com/lacie" id= "link2"> Lacie </a>] 


在 调用 Tag 的 find_all() 方 法 时 ,BeautifulSoup 会 检索 当前 Tag 的 所 有 子孙 结 
点 ,如 果 只 想 搜 索 Tag 的 直接 子 结 点 ,可 以 使 用 参数 recursive。 
下 面 是 一 段 简单 的 文档 : 


<html> 
<head> 
<title> 
The Dormouse's story 
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</title> 
</head> 


使 用 recursive 参数 的 搜索 结果 如 下 : 


>>> soup. html. find all("title") 

[<title> The Dormouse's story </title>] 

>>> soup. htm]. find all("title", recursive = False) 
[] 


< title > 标签 在 < html > 标签 下 ,但 并 不 是 直接 子 结 点 ,< head > 标签 才 是 直接 子 结 
点 。 在 允许 查询 所 有 后 代 结 点 时 BeautifulSoup 能 够 查找 到 < title > 标签 ,但 是 当 使 用 
了 recursive 二 False 之 后 只 能 查找 直接 子 结 点 ,这样 就 查 不 到 < title > 标签 了 。 

下 面 来 了 解 搜索 方法 find() 的 细节 ,其 格式 如 下 : 


find( name, attrs, recursive, string, ** kwargs) 


find_all() 方 法 将 返回 文档 中 符合 条 件 的 所 有 Tag, 尽 管 有 时 候 用 户 只 想得到 一 
个 结果 。 例 如 文档 中 只 有 一 个 < body > 标签 ,那么 使 用 find_all() 方 法 来 查找 < body > 
标签 就 不 太 合适 ,使 用 find_all() 方 法 并 设置 limit=1 不 如 直接 使 用 find() 方 法 。 下 
面 的 代码 是 等 价 的 : 

【 例 6-32】 find() 的 介绍 。 

>>> soup.find_all('title' limit =1) 

[< title > The Dormouse's story</title>] 


>>> soup. find('title') 
<title> The Dormouse's story</title> 


唯一 的 区 别 是 find_all() 方 法 的 返回 结果 是 只 包含 一 个 元 素 的 列表 ,而 find() 方 
法 直接 返回 结果 。 

find_all() 方 法 没有 找到 目标 时 返回 空 列 表 ,find() 方 法 没有 找到 目标 时 返回 
None。 例 如 : 


>>> print (soup. find( "nosuchtag")) 
None 
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soup. head. title 是 Tag 的 名 字 方 法 的 简写 。 这 个 简写 的 原理 就 是 多 次 调用 当前 
Tag 的 find() 方 法 : 

>>> soup. head. title 

<title> The Dormouse's story </title> 


>>> soup. find("head"). find("title") 
<title> The Dormouse's story </title> 


本 章 小 结 


本 章 借助 实例 详细 介绍 了 如 何 利用 urllib 和 BeautifulSoup4 模块 来 实现 对 网 络 
数据 的 获取 ,主要 包括 以 下 几 个 方面 : 

(1) 构成 网 页 的 两 种 典型 的 组 织 方式 一 一 HTML 和 XML, 其 中 HTML 用 于 布 
局 网 页 的 架构 ,XML 用 于 传递 或 存储 数据 。 

(2) 如 何 使 用 urllib 的 urlopen() 方 法 获取 URL 的 网 页 内 容 , 以 及 其 他 几 种 典型 
且 实 用 的 网 页 获取 和 存储 方法 。 

(3) 如 何 利 用 BeautifulSoup4 模块 解析 HTML 和 XML 文档 ,重点 介绍 了 
BeautifulSoup4 如 何 组 织 HTML 和 XML 文档 ,以 及 如 何 使 用 find_all() 和 find() 方 
法 寻找 数据 。 


习题 


请 利用 urllib 和 BeautifulSoup4 模块 设计 一 个 小 型 程序 ,实现 对 某 个 感 兴趣 的 网 
页 进行 信息 和 假 取 的 功能 。 
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文件 操作 


本 章 学 习 目 标 : 

。 Python 打开 文件 的 方法 

。 Python 打开 文件 的 各 种 模式 

。 Python 读 写 文件 的 模式 

。 用 Python 构建 文本 对 话 框 

从 系统 磁盘 中 读 取 文件 并 将 想 要 添加 的 内 容 写 入 已 有 文件 是 用 户 经 常 要 做 的 操 
作 。 本 章 介绍 Python 读 写 文 件 的 操作 ,包括 读 取 文件 、 写 文件 ,保存 文件 和 使 用 文本 
对 话 框 等 。 


| 
7.1 文件 的 打开 和 关闭 : 
7.1.1 打开 文件 


Python 提供 了 内 置 的 open() 方 法 用 于 打开 文件 ,用 户 可 以 使 用 help() 方 法 查看 
open() 的 一 些 属性 : 
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0 


To 
help(open) 
Out[1]: 


Help on built- in function open in module io: 

open(file,mode = 'r', buffering = — 1, encoding = None, errors = None, newline = None, closefd = 
True, opener = None) 

Open file and return a stream. Raise IOError upon failure. 


下 面 对 open() 的 参数 进行 解释 。 
。 file: 文件 所 在 的 路 径 。 
。 mode: 文件 的 打开 模式 。 文 件 的 打开 模式 有 很 多 ,如 表 7.1 所 示 。 


表 7.1 打开 文件 的 各 种 模式 
描 述 


打开 一 个 文件 为 只 读 模 式 ,文件 指针 位 于 该 文件 的 开头 。 这 是 默认 模式 


打开 一 个 文件 ,只 能 以 二 进 制 格式 读 取 , 文 件 指针 位 于 该 文件 的 开头 


打开 用 于 读 取 和 写 人 的 文件 ,文件 指针 位 于 文件 的 开头 


打开 用 于 读 取 和 写 人 的 二 进 制 格式 文件 ,文件 指针 在 文件 的 开头 


打开 一 个 文件 ,只 写 。 如 果 该 文件 存在 , 则 覆盖 该 文件 ; 如 果 该 文件 不 存在 , 则 在 该 路 
径 下 创建 一 个 新 文件 ,用 于 写 人 


打开 一 个 文件 ,只 能 以 二 进 制 格式 写 人 。 如 果 该 文件 存在 , 则 覆盖 该 文件 ; 如 果 该 文件 
不 存在 , 则 在 该 路 径 下 创建 一 个 新 文件 ,用 于 写 人 


打开 用 于 写 人 和 读 取 的 文件 。 如 果 该 文件 存在 , 则 覆盖 该 文件 ; 如 果 该 文件 不 存在 , 则 
在 该 路 径 下 创建 一 个 新 文件 ,用 于 写 人 


打开 用 于 写 人 和 读 取 的 二 进 制 格式 文件 。 如 果 该 文件 存在 , 则 覆盖 该 文件 ; 如 果 该 文 
件 不 存在 , 则 在 该 路 径 下 创建 一 个 新 文件 ,用 于 写 人 


打开 文件 ,文件 指针 在 该 文件 的 末尾 ,也 就 是 说 该 文件 处 于 追加 模式 。 如 果 该 文件 不 
存在 , 则 在 该 路 径 下 创建 一 个 新 文件 ,用 于 写 人 


打开 一 个 二 进 制 格式 文件 ,文件 指针 在 该 文件 的 末尾 ,也 就 是 说 该 文件 处 于 追加 模式 。 
如 果 该 文件 不 存在 , 则 在 该 路 径 下 创建 一 个 新 文件 ,用 于 写 人 


打开 一 个 追加 和 读 取 的 文件 ,文件 指针 在 该 文件 的 末尾 ,该 文件 为 追加 模式 。 如 果 该 
文件 不 存在 , 则 在 该 路 径 下 创建 一 个 新 文件 ,用 于 读 取 和 写 人 


ab 十 


打开 一 个 追加 和 读 取 的 二 进 制 文件 ,文件 指针 在 该 文件 的 末尾 ,该 文件 为 追加 模式 。 
如 果 该 文件 不 存在 , 则 在 该 路 径 下 创建 一 个 新 文件 ,用 于 读 取 和 写 人 


以 二 进 制 的 形式 打开 文件 


。 buffering: 如 果 buffering 的 值 被 设置 为 0, 就 不 会 有 寄存 ; 如 果 buffering 的 


值 取 1 ,在 访问 文件 时 会 寄存 ; 如 果 将 buffering 的 值 设置 为 大 于 1 的 整数 , 表 
明 这 就 是 寄存 区 的 缓冲 大 小 ; 如 果 取 负 值 ,寄存 区 的 缓冲 大 小 为 系统 默认 。 
。 encoding: 编码 方式 ,默认 为 None。 
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当 文 件 被 打开 后 会 有 一 个 File 对 象 ,用 户 可 以 通过 该 对 象 得 到 关于 该 文件 的 各 
种 信息 。 例 如 : 


file = open(file path, 'w+ ') 


表 7.2 列 出 了 和 File 对 象 相关 的 所 有 属性 : 


表 7.2 File 对 象 的 属性 


属 性 描 述 
file. closed 返回 True 表示 文件 已 关闭 ,返回 False 表示 文件 未 关闭 
file. mode 返回 被 打开 的 文件 的 访问 模式 
file. name 返回 文件 的 名 称 
file. softspace 如 果 用 print() 输 出 后 必须 跟 一 个 空格 符 , 则 返回 False, 和 否则 返回 True 
7.1.2 关闭 文件 


File 对 象 的 close() 方 法 用 于 刷新 缓冲 区 里 任何 还 没有 写 入 的 信息 ,并 关闭 该 文 
件 ,在 这 之 后 便 不 能 再 对 文件 进行 写 人 操作 了 。 当 一 个 文件 对 象 的 引用 被 重新 指定 
给 另 一 个 文件 时 ,Python 会 关闭 之 前 的 文件 。 用 close() 方 法 关闭 文件 是 一 个 很 好 的 
习惯 。 其 语法 格式 如 下 : 


file.close() 


7.2 读 写 文件 


7.2.1 从 文件 读 取 数 据 


File 对 象 提 供 了 3 个 读 文 件 的 方法 , 即 read() readline() 和 readlines() 。 每 种 方 
法 都 可 以 接受 一 个 变量 ,以 限制 每 次 读 取 的 数据 量 , 但 它们 通常 不 使 用 变量 。read() 
每 次 读 取 整 个 文件 , 它 通 常用 于 将 一 个 文件 内 容 放 入 到 一 个 字符 串 变 量 中 。 然 而 , 当 
read() 读 取 的 文件 内 容 大 于 可 用 内 存 时 ,不 可 能 接受 这 种 处 理 。readline() 和 
readlines() 之 间 的 差别 在 于 后 者 是 一 次 性 读 取 整 个 文件 ,和 read() 一 样 ,readlines() 
自动 将 文件 内 容 解析 成 一 个 行 的 列表 ,该 列表 可 以 由 Python 的 forin- 结 构 进行 处 
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理 ; 另 一 方面 ,readline() 每 次 只 读 取 一 行 ,通常 比 readlines() 慢 很 多 。 表 7. 3 给 出 
File 对 象 的 读 取 方法 和 描述 。 


表 7.3 读 取 文件 的 方法 


方 法 描 述 
file. read([ size]) size 表示 读 取 的 长 度 ,单位 为 字 节 。 读 取 整 个 文件 
读 取 一 行 ,每 操作 一 次 读 取 一 行 , 读 取 长 度 为 size, 若 size 的 大 小 小 于 
这 一 行 的 长 度 , 则 返回 这 一 行 的 部 分 
把 文件 的 每 一 行 作 为 list 的 一 个 成 员 , 读 取 后 返回 一 个 list, 读 取 的 行 
数 为 size, 若 size 小 于 文件 的 总 行 数 , 则 返回 文件 的 部 分 行 


file. readline([size]) 


file. readlines([size]) 


当 读 取 的 文件 很 大 时 ,经 常 使 用 fileinput 模块 : 


import fileinput 
for line in fileinput. input (file path): 
print (line) 


用 户 也 可 以 直接 使 用 for 循环 : 


f= open(file path) 
for line in f. readlines(): 
print (line) 


用 户 还 可 以 使 用 列表 解析 式 : 


[line for line in open(file path). readlines()] 


在 使 用 open() 方 法 打开 文件 后 一 定 要 记得 调用 close() 方 法 关闭 文件 ,可 以 用 
try-finally 语句 来 确保 最 后 能 关闭 文件 ,例如 : 


f= open(file path) 
try: 
for line in f. readlines(): 
print (line) 
finally: 
f.close() 


注意 : 不 能 将 open() 方 法 放 在 try 里 面 ,因为 当 打 开 文 件 出 现 异 常 时 文件 对 象 将 
无 法 指向 close() 操 作 。 
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7.2.2 向 文件 写 人 数据 


write() 方 法 可 以 将 任何 字符 串 写 和 一 个 打开 的 文件 中 。 需 要 注意 的 是 ,Python 
字符 串 可 以 是 二 进 制 数据 ,而 不 仅仅 是 文字 , write() 方 法 不 会 在 字符 串 结 尾 添 加 换行 


符 ("\n')。 


writelines() 也 可 以 将 内 容 写 入 打开 的 文件 中 ,但 是 和 write() 方 法 一 样 ， 
writelines() 也 只 是 机 械 地 写 入 ,不 会 在 每 行 后 面 添加 任何 东西 。 


7.3 文件 对 话 框 


7.3.1 基于 win32ui 构建 文件 对 话 框 


从 名 字 上 看 ,win32ui 模块 是 对 Windows 系统 进行 文件 对 话 框 操 作 的 ,该 模块 里 
面 的 CreateFileDialog() 方 法 可 以 很 方便 、 快 捷 地 创建 打开 文件 对 话 框 。 代 码 展 示 


如 下 : 


import win32ui 


dlg= win32ui. CreateFileDialog(1) 
dlg. SetOFNInitialDir("D:\\python") 


dlg. DoModal() 


filename = dlg. GetPathName( ) 


print (filename) 


其 结果 如 图 7. 1 所 示 。 


# 创 建 打 开 文件 对 话 框 
# 设 置 打 开 文 件 对 话 框 中 的 初始 显示 目录 


# 获 取 选 择 的 文件 名 称 


CreateFileDialog() 有 几 种 内 置 方法 ,如 表 7.4 所 示 。 


表 7.4 CreateFileDialog() 的 几 种 内 置 方 法 


方 ”法 功 能 
GetPathName() 获取 路 径 名 称 
GetFileName() 获取 文件 名 称 
GetFileExt() 获取 文件 扩展 名 
GetFileTitle() 获取 文件 标题 
GetPathNames() 从 文件 对 话 框 获取 路 径 名 称 列表 
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续 表 
方 法 功 能 
GetReadOnlyPref() 获取 只 读 文 件 
SetOFNTitle() 设置 对 话 框 名 
SetOFNInitialDir() 设置 对 话 框 的 初始 文件 夹 
DoModal() 为 对 话 框 创 建 一 个 模式 窗口 
EndDialog() 关闭 一 个 模式 对 话 框 


打开 


a 
GOs ， 计算 机 ， 本 地 三 熏 (D9 


2017/4/21 11:51 
2017/4/21 11:51 
2017/4/21 11:50 
2017/4/21 11:51 
2017/4/21 11:51 
2017/10/30 17:30 
2017/4/13 23:20 
2017/4/21 11:59 
2017/4/21 11:51 
2017/4/21 11:51 
2017/3/21 18:01 


图 7.1 使 用 win32ui 创建 文件 对 话 框 

这 个 打开 文件 对 话 框 的 界面 还 是 很 友好 的 ,这 也 是 Windows 风格 的 对 话 框 ,但 
是 它 的 缺点 也 很 明显 , 那 就 是 只 对 Windows 系统 有 效 。 当 对 其 他 系统 进行 打开 或 创 
建文 件 对 话 框 的 操作 时 ,需要 用 到 tkFileDialog 模块 。 


7.3.2 基于 tkFileDialog 构建 文件 对 话 框 


tkFileDialog 的 功能 和 win32ui 差不多 ,都 是 用 于 对 文件 对 话 框 的 操作 , 它 的 代 
码 也 很 简单 ,代码 展示 如 下 : 
import tkFileDialog 


filename = tkFileDialog. askopenfilename( initialdir = 'E:/Python') 
print (filename) 


其 得 到 的 效果 是 和 win32ui 一 样 的 。 
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表 7.5 列 出 了 tkFileDialog 的 几 种 常用 方法 。 


表 7.5 tkFileDialog 的 几 种 常用 方法 


方 法 功 能 
打开 一 个 文本 对 话 框 ,返回 一 个 文本 对 象 。 若 需要 返回 多 
askopenfile(mode= 'r', ** options) 个 文本 对 象 ,使 用 askopenfiles(mode 二 'r', xx options) ,此 
时 将 以 列表 形式 返回 文件 对 象 
获取 文件 路 径 和 名 称 。 若 要 获取 多 个 文件 路 径 和 名 称 , 使 
askopenfilename( xx options) 用 askopenfilenames( *x options) ,此 时 将 以 元 组 形式 返回 
文件 路 径 和 名 称 
asksaveasfile(mode= 'w', ** Options) 打开 文本 对 话 框 ,返回 一 个 写 文 本 对 象 
asksaveasfilename( ) 获取 需 保存 文件 的 路 径 和 名 称 
askdirectory() 选择 一 个 文件 夹 


7.4 应 用 实例 : 文本 文件 的 操作 


【 例 7-1】 使 用 random 模块 中 的 randint() 方 法 生成 1 一 122 的 随机 数 ,以 产生 
字符 对 应 的 ASCII 码 ,然后 将 满足 大 写字 母 ,小 写字 母 .数字 和 一 些 特殊 符号 ( 例 
如 \n,\r、* 、&、“、$ ) 条 件 的 字符 逐一 写 进 test. txt 中 , 当 光 标 到 达 10001 时 停止 
写 入 。 

程序 代码 如 下 : 


import random 
with open( 'F:\\python book\\chapter7\\test. txt', 'w') as f: 
while 1: 
i= random. randint (1,122) 
x= chr(i) 
if x. isupper() or x. islower() \ 
or x pdigit() or x in [Nn NEG Bs 
f.write(x) 
if f.tell() > 10000: 
break 


运行 该 文件 ,会 在 F 盘 的 python book 文件 夹 下 的 chapter7 目录 中 产生 一 个 
test. txt 文件 ,在 该 文件 中 会 写 用户 想 要 的 内 容 , 如 图 7.2 和 图 7. 3 所 示 。 

当然 ,还 有 许多 创建 文本 文件 的 方法 ,读者 也 可 以 尝试 自己 编写 。 

以 下 实例 均 在 上 述 代 码 产 生 的 文本 文件 的 基础 上 运行 。 
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修改 日 期 
2018/4/21 10:13 。 文本 文档 


文件 (D “篇 儿 (5 入 才 (0O)“ 埋 看 (V) 入 助 (H) 


JRJ19xFdkTzSaSNfOvBtvtNg3bwnKp&0Jfi5tT DKY9W&6b | 
alLL2iN4X1HEaJpzXh KYi700fqB$co5J8axs3KungE2vOHDA83mPRQtXad4eRBbl&+reJQbNSN2F*+ AYtC$JqQR 
GXtA tHe7klBmll njYQp3Nn LlEePT2hEe6Rr b5wb8qF78npYXIQJYTE+tmaKLNPaZy6*tKtGtmcTqOpYmulIl 


2kn8LeLs*UlAcpaNR6m3IDiCFaPehwzCtJ4pTR*m9$ 931tRaUP6HEChwl 
57pacJV4r zA*#UPIHx 
6jd4i5vmE5A6cnzu2E1oQ dz2& 
abtOJ[xkx6FU2azQuADEPsiYNvOW37Wq 
C&F $ZI “989$TBmbozhvrdYfCN* JSMM JuxAXBhUPzMF $AZwl sfa9Z2hCixqw8rCEO03E 
i$fF56zJ2hoP fdNTPwQrl3AbcEsjlmiaNhfRwQ5C2ywe$yZZA8 
st 41n0VqXdlRNj6vq5FpgH9kp5yCCIrmC aoshM30AX3D$Zsxzdkd4v7?btpXjdGveBrlY 
h 
fSkl 
jUgCsJQc5UAZYHHI&OVNxhDjuSwsT7 
H6jqiXgQyYapbuLilgGbc5yj5V$hwW8aAxq6gxxfaiJ54KJfFTTDkDCjUSk4PNRBmc 
$i31bYVL DsheJ3xiXDJPc 
6m 0EQ02&qDFsoVPryiOqo741Zr6&0hr3d6b+f3LYZUEI 
HHZ1xIXoCaX08sU3tYP7WE*rMHmADJ1O 
对 YIDIPsXF cKlno9$1SXgLQ5 xd41XxZHpj$hOB3XHYZv0dLQ9SUIcQ$HmJUBWe8LlnzlF57ysI7TLcBIekrt8a 
Y$qLnBiLcZNcoRhnnHIHF*8Ku$lP8diTXs&SF+IIJr2mmbOntaav4 HOaYqxVgswXN8aXko87W8nc7UBH1Yej2 
T307JiIC EJ2EXI[a65g&8EE&]#+irXLA3ol jEktkqtYLD$ZuJONObHFeQtX7 


3LvGPO8yYLvoy13RWndWA1r3q5YuqqkLqXrzdarZAGzlm3RZtU9$#*R3dWzq50ml f+GBL1JXnz5U8eRCLHuq60 
kaSnbU &ynaomqeQ*ETdki 
dwx5oTUTaoZTXJddUtQZyiel7y3I7pGtL8Y4mb$0e0YFZUm0fYZ3&42vfc6qrJUSc72If 
V30wmJoALJHIYXpORgw] 9W1Lt*D ktFXoIoZtXwut*GF1NmaA+Pwvhq0S9U15qgKvf7qS 


| 


7.3 test. txt 文件 中 的 部 分 内 容 
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【 例 7-2】 逐个 字 节 输出 test txt 文件 中 的 前 100 个 字 节 字符 和 后 100 个 字 节 字符 。 
程序 代码 如 下 : 
with open( 'F:\\python book\\chapter7\\test. txt', 'r') as f: 

print(£, read(100)) 


f. seek(9900) # 将 光标 移动 到 倒数 第 9900 的 位 置 
print (f.read()) 


【 例 7-3】 逐 行 输出 test. txt 文件 中 的 所 有 字符 。 
分 析 : 这 里 能 用 很 多 方法 实现 ,可 以 用 readlines() 生 成 一 个 列表 ,或 者 直接 迭代 
文本 对 象 。 下 面 给 出 两 种 实现 方法 。 
程序 代码 7-3-1 (方法 一 ) : 
with open( 'F:\\python book\\chapter7\\test. txt', 'r') as f: 
lines = f. readlines() 


for line in lines: 
print (line) 


程序 代码 7-3-2( 方 法 二 ): 


with open( 'F:\\python book\\chapter7\\test. txt', 'r') as f: 
for line in f: 
print (line) 


方法 一 先 产生 一 个 由 各 行 字 符 构 成 的 列表 ,然后 逐个 打印 出 列表 中 的 元 素 ; 方 
法 二 是 利用 了 文本 对 象 的 迭代 功能 ,直接 对 文本 内 容 进行 读 取 。 相 比较 而 言 ,由 于 方 
法 一 构建 了 一 个 列表 ,所 以 程序 的 运行 更 占 内 存 , 建 议 用户 使 用 方法 二 ,直接 对 文本 
对 象 进行 迭代 。 

【 例 7-4】 复制 test. txt 文件 中 的 文本 数据 ,生成 一 个 新 的 文本 文件 。 

分 析 : 以 读 写 模式 打开 需要 复制 的 文件 ,将 文本 中 的 所 有 字符 赋 给 一 个 新 的 变 
量 ,然后 以 写 模式 新 建 一 个 文本 对 象 , 将 所 有 字符 写 人 该 文本 中 ; 或 者 逐 字 节 或 逐 行 
将 需要 赋值 的 文本 字符 写 人 新 文本 。 下 面 给 出 这 两 种 实现 方法 。 

程序 代码 7-4-1( 方 法 一 ) : 

上 = open( 'F:\\python book\\chapter7\\test. txt', 'r') 


g= open( 'F:\\python book\\chapter7\\test1. txt', 'w') 
a=f.read() 
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g.write(a) 
f.close() 
g.close() 


程序 代码 7-4-2( 方 法 二 ): 


f= open( 'F:\\python book\\chapter7\\test. txt', 'r') 
g= open( 'F:\\python book\\chapter7\\test1. txt', 'w') 
for contents in f: 

g. write(contents) 
f.close() 
g.close() 


【 例 7-5】 统计 test. txt 文件 中 大 写字 母 ,小写 字母 和 数字 出 现 的 频率 。 


分 析 : 利用 字符 串 的 内 置 方法 isupper() ,islower() 和 isdigit() 判 断 字 符 的 类 型 ， 


或 者 直接 判断 是 否 处 于 大 写字 母 .小 写字 母 和 数字 的 范围 。 
程序 代码 7-5-1( 方 法 一 ): 


with open( 'F:\\python book\\chapter7\\test. txt', 'r') as f: 
u=0 
l=0 
d=0 
for line in f. readlines(): 
for content in line: 
if content. isupper( ): 
nu t=1 
elif content. islower(): 
1 +=1 
elif content. isdigit(): 
d+=1 
print ("大 写字 母 有 %d 个 ,小 写字 母 有 %d 个 , 数字 有 sd 个 ' % (ul'd)) 


程序 代码 7-5-2( 方 法 二 ): 


with open( 'F:\\python book\\chapter7\\test. txt', 'r') as f: 
u=0 
1=0 
d=0 
for line in f. readlines( ): 
for content in line: 
if 'A'<= content <= 'Z': 
+=1 
elif ‘a'<= content <= 'z': 
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1 +=1 
elif '0'<= content <= '9': 
d +=1 


print ("大写 字母 有 名 d 个 ,小 写字 母 有 %d 个 , 数字 有 名 d 个 ' $ (ul,d)) 


【 例 7-6】 将 test. txt 文件 中 的 所 有 小 写字 母 转换 成 大 写字 母 ,然后 保存 到 test_ 
copy. txt 文件 中 。 
分 析 : 先 以 w 模式 创建 一 个 空白 的 文本 文件 test_copy. txt, 然 后 将 test. txt 文件 
中 的 小 写字 母 全 部 转换 成 大 写字 母 , 再 写 入 test_copy. txt 文件 中 。 
程序 代码 : 
上 = open( 'F:\\python book\\chapter7\\test. txt', 'r') 
g= open( 'F:\\python book\\chapter7\\test_copy. txt', 'w') 
temp="" # 创建 一 个 空 字符 串 用 于 保存 
for line in f. readlines(): 
for content in line: 
if content. islower(): 
content. upper( ) 
temp += content 


else: 
temp += content 


g. write(temp) 


f.close() 
g.close() 


本 章 小 结 


本 章 主要 介绍 了 如 何 利用 Python 进行 文本 文件 的 操作 ,具体 包括 以 下 内 容 : 
(1) 如 何 打 开 和 关闭 文本 对 象 。 
。 使 用 open() 函 数 可 以 创建 新 的 文本 文件 或 者 打开 已 有 的 文本 文件 ; 
。 使 用 文本 对 象 的 close() 方 法 可 以 将 缓存 的 文本 数据 存储 到 磁盘 中 ,并 关闭 
文本 。 
(2) 文本 对 象 的 几 种 模式 。 基 本 模式 包括 r、w、a, 分 别 对 应 读 模式 、 写 模式 和 附 
加 模式 。 这 3 种 模式 可 以 和 十 与 b 结合 使 用 ,从 而 实现 附加 的 文本 对 象 功能 。 
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(3) 文本 对 象 常用 的 方法 和 属性 。 
(4) 如 何 读 取 文本 对 象 中 的 数据 。 
(5) 如 何 往 文本 中 写 数据 。 

(6) 构建 文本 对 话 框 。 

(7) 几 种 典型 的 文本 操作 。 


习题 


1. 编写 程序 实现 九 九 乘法 表 , 并 将 其 保存 到 一 个 ex7_1. txt 文件 中 。 

2. 编写 程序 ,提示 用 户 输入 字符 串 ,将 所 输入 的 字符 串 以 及 对 应 字符 串 的 长 度 
写 和 人 到 ex7_2. txt 中 。 

3. 在 指定 路 径 新 建 一 个 空白 . txt 文件 ,并 将 "Hello Python” 写 到 该 文件 中 。 

4. 读 取 习 题 3 中 的 文件 ,并 将 “Welcome to” 添 加 到 “Hello” 的 后 面 。 
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Python 数据 可 视 化 


本 章 学 习 目 标 : 
。 理解 数据 可 视 化 的 基本 概念 
。 熟练 掌握 使 用 Matplotlib 绘制 常用 图 表 的 方法 
。 掌握 Matplotlib 中 图 表 的 定制 方法 
本 章 先 向 读者 介绍 数据 可 视 化 的 基本 概念 和 常用 的 数据 图 表 , 然 后 介绍 Python 
的 Matplotlib 可 视 化 库 , 重 点 介绍 如 何 使 用 该 库 的 pyplot 对 象 制作 点 线 图 .柱状 图 等 
常用 图 表 , 接 下 来 介绍 图 表 定 制 的 基本 方法 ,最 后 讲述 高 级 的 图 表 定 制 。 


8.1 数据 可 视 化 概念 框架 
8.1.1 数据 可 视 化 简介 


进化 的 影响 和 制约 ,人 类 的 大 脑 在 处 理 图 像 和 处 理 数字 的 速度 上 有 着 天 壤 之 
别 , 这 与 计算 机 在 处 理 二 者 的 方式 上 截然 不 同 。 人 类 的 眼睛 是 一 对 高 带宽 、 巨 量 视觉 
信号 输入 的 并 行 处 理 器 ,拥有 超 强 的 模式 识别 能 力 ,配合 超过 50% 的 功能 用 于 视觉 感 
知 相关 处 理 的 大 脑 ,使 得 人 类 通过 视觉 获取 数据 比 任何 其 他 形式 的 获取 方式 更 好 。 
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例如 ,假如 若干 信息 通过 纯 数 字 或 文字 向 人 类 传达 ,可 能 需要 数 分 钟 或 数 小 时 才能 传 
达 完 毕 ,但 若是 以 形状 .颜色 ,布局 等 图 像 形 式 进行 传达 ,往往 在 数秒 之 内 即 可 将 信息 
传达 完毕 。 数 据 可 视 化 正 是 利用 人 类 的 这 一 天 生 技 能 来 增强 数据 处 理 和 组 织 的 

数据 可 视 化 是 将 数据 以 视觉 形式 表达 出 来 的 科学 技术 ,通常 指 的 是 较为 高 级 的 
技术 方法 。 这 些 技术 方法 允许 利用 图 形 /图 像 处 理 、. 计 算 机 视觉 以 及 用 户 界面 ,通过 
表达 、 建 模 以 及 对 立体 .表面 .属性 和 动画 的 显示 ,对 数据 加 以 可 视 化 解释 。 借 助 于 图 
形 化 手段 ,数据 可 视 化 技术 能 够 清晰 ,有效 地 传达 与 沟通 信息 。 

数据 可 视 化 与 信息 图 形 、 信 息 可 视 化 、 科 学 可 视 化 以 及 统计 图 形 密切 相关 。 当 
前 ,在 研究 .教学 和 开发 领域 ,数据 可 视 化 是 一 个 极为 活跃 而 又 关键 的 方面 。“ 数 据 可 
视 化 ?这 条 术语 实现 了 成 熟 的 科学 可 视 化 领域 和 较 年 轻 的 信息 可 视 化 领域 的 统一 。 

大 多 数 人 对 统计 数据 了 解 甚 少 ,基本 统计 方法 (平均 值 .中 位 数 . 范 围 等 ) 并 不 符合 
人 类 的 认 知 天 性 。 最 著名 的 一 个 例子 是 Anscombe 的 四 重奏 。 请 试 着 观察 图 8. 1(a) 中 
的 4 组 数据 ,即使 是 受过 专业 统计 学 训练 的 人 也 很 难 从 这 些 数 据 中 看 出 各 组 的 规律 ， 
可 一 旦 将 4 组 数据 可 视 化 出 来 (如 图 8. 1(b) 所 示 ) ,规律 就 非常 清楚 了 。 


I I 了 1 V 
> y x » 3 » 工 了 
10 8.04 10 9.14 10 7.46 8 6.58 
8 6.95 8 8.14 8 6.77 8 5.76 
13 7.58 13 8.74 13 12.74 8 RIL 
9 8.81 分 77 9 Ti 8 8.84 
(a) 11 8.33 11 9.26 11 7.81 8 8.47 
14 9.96 14 8.10 14 8.84 8 7.04 
6 7.24 6 6.13 6 6.08 8 525 
4 4.26 4 3.10 4 5.39 19 12.5 
12 10.84 12 9.13 12 8.15 8 5.56 
7 4.82 7 7.26 2 6.42 8 7.91 
5 5.68 5 4.74 和 5.73 8 6.89 


(b) 


. 
i oo 。 
ee 而 a 
* eo 
ES 


图 8.1 Anscombe 四 重奏 可 视 化 图 表示 例 


人 们 在 日 常生 活 中 所 说 的 数据 可 视 化 大 多 指 狭义 的 数据 可 视 化 以 及 部 分 信息 可 
视 化 。 根 据 数 据 类 型 和 性 质 的 差异 ,数据 可 视 化 经 常 分 为 以 下 几 种 类 型 。 

(1) 统计 数据 可 视 化 : 用 于 对 统计 数据 (例如 平均 值 .中 位 数 等 ) 进 行 展示 和 分 
析 , 或 对 原始 数据 进行 可 视 化 统计 ,用 于 可 视 化 的 图 表 包 括 柱状 图 、 饼 图 、 直 方 图 、 散 
点 图 、 折 线 图 等 。 目 前 常见 的 可 视 化 工具 都 具有 统计 数据 可 视 化 功能 ,例如 Excel、 
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ECharts、D3.js 等 ,都 可 用 于 展示 、 分 析 统 计数 据 。 

(2) 关系 数据 可 视 化 : 主要 表现 为 结 点 和 边 的 关系 ,例如 流程 图 、 网 络 图 .UML 
图 、 力 导 图 等 。 常 见 的 关系 可 视 化 工具 有 Visio、JointJS、Go]JS 等 。 

(3) 地 理 空间 数据 可 视 化 : 地 理 空间 通常 特 指 真实 的 人 类 生活 空间 ,地 理 空间 数 
据 描述 了 一 个 对 象 在 空间 中 的 位 置 。 在 移动 互联 网 时 代 , 移 动 设备 和 传感器 的 广泛 
使 用 使 得 每 时 每 刻 都 产生 着 海量 的 地 理 空 间 数 据 。 地 理 空 间 可 视 化 通常 以 将 地 理 要 
素 显示 在 地 图 上 的 方式 进行 表现 ,常见 工具 有 ArcGIS、Leaflet、 百 度 / 高 德 地 图 
API 等 。 


8.1.2 数据 可 视 化 常用 图 表 


常用 的 数据 可 视 化 方法 很 多 ,包括 传统 的 数据 分 析 图 表 ( 例 如 柱状 图 、 饼 图 ) 和 现 
代 化 视觉 图 表 ( 例 如 信息 图 、 交 互 式 地 图 等 ), 其 中 有 一 些 共同 的 视觉 要 素 。 

。 坐标 : 数值 的 位 置 被 对 应 到 直角 坐标 系 或 极 坐标 系 上 。 

。 大 小 : 数据 的 大 小 被 对 应 到 图 形 的 大 小 。 

"色彩 : 数值 的 分 类 和 界限 等 被 对 应 到 不 同 的 颜色 。 

。 标签 : 数值 的 特征 用 标签 来 标记 。 

。 关联 : 数值 之 间 的 联系 用 关联 线条 等 连接 起 来 。 

目前 ,基于 统计 的 数据 可 视 化 常用 的 图 表 主 要 有 柱状 图 (条 形 图 ) 、 折 线 图 、 饼 图 
以 及 它们 的 变形 种 类 ,此 外 还 有 很 多 用 于 特定 用 途 的 专用 图 表 。 


1. 柱状 图 


柱状 图 是 数据 可 视 化 中 最 常 使 用 的 图 表 , 可 用 于 单个 或 多 个 维度 的 比较 。 文 本 
维度 /时 间 维度 通常 作为 X 轴 ,数值 型 维度 通常 作为 站 轴 。 柱 子 的 长 短 可 直观 反映 
出 数值 的 大 小 ,以 便于 迅速 的 比较 。 此 外 , 若 有 第 3 个 维度 ,可 将 柱子 分 组 并 通过 柱 
子 的 颜色 加 以 区 分 。 

1) 基础 柱状 图 

柱状 图 可 以 表现 每 条 数据 的 具体 值 ,容易 比较 大 小 ,每 一 组 数据 建议 只 展示 1 一 3 
列 数据 , 太 多 会 导致 对 比 困难 ,图 形 混乱 。 柱 状 图 可 以 是 水 平 排列 的 ,也 可 以 是 垂直 
排列 的 ,水平 的 柱状 图 有 时 候 也 称 为 条 形 图 ,如 图 8. 2 所 示 。 
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图 8.2 柱状 图 (条 形 图 ) 示 例 
2) 堆积 柱状 图 (堆积 条 形 图 ) 
这 是 柱状 图 的 一 个 变形 类 型 ,用 于 比较 组 内 的 占 比 情 况 , 同 时 可 以 比较 各 组 每 部 
分 及 整体 大 小 ,如 图 8. 3 所 示 。 


mm Men 
mm Women 


中 | 


图 8.3 堆积 柱状 图 示例 


3) 含 正 负 值 的 条 形 图 
以 X 轴 0 坐标 为 基准 ,向 左右 两 边 伸 出 的 条 状 , 可 表达 出 具有 正 负 值 的 数据 ,如 
图 8.4 所 示 。 


2. 折线 图 


折线 图 最 常用 于 观察 数据 的 趋势 .因此 它 和 时 间 密 不 可 分 。 当 用 户 想 要 了 解 某 
一 维度 在 时 间 上 的 规律 或 者 趋势 时 就 可 以 使 用 折线 图 ,例如 气温 记录 图 .心电图 都 是 
常见 的 折线 图 ,如 图 8. 5 所 示 。 


和 194)】 Python 数据 分 析 与 实践 | 


图 8.4 含 正 负 值 的 条 形 图 示例 


3. 饼 图 ( 环 图 ) 


饼 图 在 一 个 圆 形 上 展示 多 组 数据 ,每 组 数据 的 数值 表达 为 其 所 在 圆 弧 的 相对 角 
度 ( 如 图 8.6 所 示 ) ,从 而 表现 各 组 数据 的 占 比 情况 。 需 要 注意 的 是 , 饼 图 的 使 用 限制 
比较 大 , 它 擅长 表达 某 一 占 比较 大 的 类 别 , 但 是 不 擅长 对 比 ,例如 30% 和 35% 在 饼 图 
上 难以 凭 人 的 肉眼 区 分 。 此 外 , 当 类 别 过 多 时 ,也 不 适合 在 饼 图 上 表达 。 


直接 访问 


2 邮件 营销 
= 
一 一 一 “搜索 引擎 联盟 广告 
一 视频 广告 
上 
图 8.5 折线 图 示例 图 8.6 饼 图 示例 
4. 散 点 图 
散 点 图 在 日 常 报表 中 用 得 较 少 ,但 是 在 数据 分 析 中 极为 常见 ,如 图 8.7 所 示 。 散 


点 图 通过 坐标 轴 表 示 两 个 变量 之 间 的 关系 。 绘 制 它 依赖 大 量 数据 点 的 分 布 。 尤 其 是 
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对 于 大 数据 量 , 散 点 图 会 有 更 直观 和 精准 的 结果 ,例如 统计 中 的 回归 分 析 或 数据 挖掘 
中 的 聚 类 。 散 点 图 的 优势 在 于 易于 揭示 数据 间 的 关系 ,发 现 变 量 与 变量 之 间 的 关联 。 


图 8.7 散 点 图 示例 


气泡 图 与 散 点 图 类 似 , 并 在 散 点 图 的 基础 上 为 各 个 点 赋予 面积 ,使 用 点 的 面积 大 
小 来 表达 第 3 个 维度 的 信息 ,如 图 8. 8 所 示 。 
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图 8.8 气泡 图 示例 


8.1.3 Python 数据 可 视 化 环境 准备 
得 益 于 Python 强大 的 可 扩展 性 ,在 Python 中 有 很 多 强大 的 图 形 库 供用 户 选 择 。 


1. Matplotlib 


Matplotlib 是 Python 中 最 流行 的 2D 绘图 库 , 它 可 以 在 各 种 平台 上 以 各 种 硬 拷 
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贝 格式 交互 式 地 生成 具有 出 版 品质 的 图 形 。Matplotlib 参考 了 MATLAB 的 界面 和 
函数 ,提供 与 其 相似 的 绘图 方式 。 对 于 高 级 用 户 ,可 以 通过 面向 对 象 的 界面 或 
MATLAB 用 户 熟 悉 的 一 组 函数 完全 控制 线条 样式 、 字 体 属性 、 轴 属性 等 ,只 需 几 行 代 
码 即 可 使 用 Matplotlib 将 数据 生成 柱状 图 、 饼 图 、 散 点 图 等 常用 图 表 。 


2. Seaborn 


Seaborn 是 一 个 基于 Matplotlib 的 高 级 可 视 化 效果 库 , 偏 向 于 统计 作 图 。 因 此 ， 
其 针对 的 主要 是 数据 挖掘 和 机 器 学 习 中 的 变量 特征 选取 。 相 比 Matplotlib, Seaborn 
的 语法 相对 简单 ,绘制 出 来 的 图 无 须 花 很 多 时 间 去 修饰 。 相 对 地 , 它 的 绘图 方式 比较 
局 限 ,不 够 灵活 。 


3. Bokeh 


Bokeh 是 基于 JavaScript 来 实现 交互 的 可 视 化 库 , 它 可 以 在 Web 浏览 器 中 实现 
美观 的 视觉 效果 。 但 是 其 缺点 也 较为 明显 : 一 是 版 本 时 常 更 新 ,有 时 语法 不 向 下 兼 
容 ; 二 是 语法 隐 涩 , 相 比 Matplotlib 而 言 更 加 复杂 和 难以 理解 。 


4. ggplot 


ggplot 是 基于 R 语言 中 的 ggplot2 绘图 库 所 制作 的 Python 版 本 。ggplot2 是 R 
语言 中 大 名 瞄 虎 的 绘图 库 , 功 能 强大 上 且 应 用 广泛 。 如 果 用 户 对 R 语言 和 ggplot2 比 
较 熟 悉 , 在 Python 中 使 用 ggplot 会 更 加 得 心 应 手 。 


5. Plotly 


Plotly 也 是 一 个 做 可 视 化 交互 的 库 。 它 不 仅 支持 Python, 还 支持 R 语言 。 
Plotly 的 优点 是 能 提供 Web 在 线 交 互 ,配色 也 更 为 美观 。 

总 之 ,Python 中 的 绘图 库 众多 ,各 有 特点 ,但 是 Matplotlib 是 最 基础 、 最 常用 、 最 
强大 的 Python 可 视 化 库 。 如 果 要 学 习 Python 数据 可 视 化 ,那么 Matplotlib 应 该 说 
是 不 二 之 选 。 本 书 将 以 Matplotlib 作为 学 习 Python 可 视 化 的 主要 工具 。 

在 操作 系统 中 进入 命令 行 工 具 , 输 入 “pip3 install matplotlib”, 或 者 访问 
Matplotlib 的 官方 网 站 “https://pypi. python. org/pypi/matplotlib”, 查找 并 下 载 与 
Python 版 本 相配 的 wheel 文件 ,安装 之 后 测试 Matplotlib 是 否 安 装 成 功 : 
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import matplotlib 


导入 Matplotlib, 如 果 没 有 出 现任 何 错误 消息 ,就 说 明 该 系统 安装 了 Matplotlib。 


8.2 绘制 图 表 


8.2.1 Matplotlib API 人 门 


在 Matplotlib 中 使 用 最 多 的 模块 就 是 pyplot。pyplot 非常 接近 于 加 
MATLAB 的 绘图 实现 ,而 且 大 多 数 的 命令 与 MATLAB 极 其 类 似 。 当 “罗江 久 
然 , 和 MATLAB 一样 , 它 需 要 很 多 的 数学 运算 ,因此 NumPy 这 个 组 件 同样 必 不 可 
少 。 可 以 说 Python 十 Matplotlib 十 NumPy 就 是 MATLAB。 

首先 ,由 于 Matplotlib 名 称 较 长 ,所 以 建议 在 引入 包 时 使 用 别名 ,这 样 方便 以 后 
对 模块 的 使 用 ,一 般 以 以 下 两 句 开 始 : 

import numpy as np 

import matplotlib. pyplot as plt 

这 里 导入 了 Numpy 和 Matplotlib 的 pyplot 两 个 模块 ,并 分 别 使 用 np 和 plt 作为 
二 者 的 别名 。 

下 列 代 码 使 用 Matplotlib 绘制 一 个 正弦 和 一 个 余弦 函数 曲线 ,这 里 暂 不 对 图 表 
做 任何 定制 ,使 用 默认 的 绘图 属性 绘图 。 


# 创建 X 轴 的 数据 :从 -到 二 的 256 个 等 差 数字 
x= np.1linspace( — np. pi, np. pi, 256, endpoint = True) 


# 使 用 cos 和 sin 函数 以 x 为 自 变 量 创建 C 和 5S 


C, S=np.cos(x),np. sin(x) 


# 使 用 plot() 分 别 绘制 正弦 和 余弦 函数 
plt. plot(x,C) 

plt. plot(x,S) 

plt. show() 
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显示 的 结果 如 图 8.9 所 示 。 
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图 8.9 正弦 与 余弦 曲线 

在 Matplotlib 中 ,一 个 基本 图 表 通 常 包括 以 下 元 素 。 

(1) Figure: Figure 指 的 是 图 像 窗口 , 它 是 包 玩 Axes、Title、Legend 等 组 件 的 最 
外 层 窗 口 。Figure 中 最 主要 的 元 素 是 Axes( 子 图 )。 在 一 个 Figure 中 可 以 有 多 个 子 
图 ,但 至 少 要 有 一 个 能 够 显示 内 容 的 子 图 。 

(2) Axes: Axes 指 轴 域 / 子 图 ,是 带 有 数据 的 图 像 区 域 ,位 于 Figure 里 面 。 用 户 
可 以 将 Axes 理解 为 覆盖 在 Figure 上 的 小 面板 ,用 于 显示 实际 的 图 表 。 

(3) Axis: 轴 , 分 为 X 轴 和 YY 轴 。 轴 上 包含 刻度 和 刻度 标签 。 

此 外 ,一 个 完整 的 图 表 通 常 还 包含 Title( 图 表 标 题 ) 和 Legend( 图 例 )。 


8.2.2 创建 图 表 


1. 折线 图 


plot() 是 pyplot 中 最 常用 的 函数 ,可 用 于 创建 一 张 点 线 图 表 , 并 通过 参数 对 点 标 
记 和 线条 的 样式 进行 设置 。 该 函数 的 声明 如 下 : 


matplotlib. pyplot. plot( * args, ** kwargs) 


args 参数 的 长 度 是 不 定 的 ,可 以 设置 多 个 属性 ,包含 多 个 x、y; 也 可 以 设置 折线 
的 对 应 属性 ,例如 颜色 、 线 宽 等 。 
plot(xl,yl,x2,y2,x3,y3,…) 表 示 在 同一 幅 图 中 显示 多 条 折线 ,xl yl 等 均 为 数 
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值 列表 ,代表 坐标 。 
kwargs 参数 主要 用 于 设置 图 形 要 素 的 属性 。 例 如 : 


plot(x, y, label = "red", color = "r", linestyle=" - ", linewidth= 5, marker = "^", markersize = 20) 


这 里 分 别 设置 了 标签 颜色 、 折 线 颜 色 、 折 线 线 型 和 线 宽 、 标 记 点 符号 、 标 记 点 
大 小 。 
对 于 标注 和 线条 的 样式 ,可 以 通过 简单 的 字符 来 表示 ,如 表 8. 1 所 示 。 


表 8.1 标注 和 线条 样式 的 字符 表示 


字 符 描 述 字 符 描 述 
= 实 线 3 方块 符号 
2 虚线 p 五 角形 符号 
sp 点 横 虚 线 星星 符号 
和 点 线 h 六 边 形 符号 

点 符号 "HL 六 边 形 符号 
， 像素 符号 权 到 加 号 
'0! 圆圈 符号 x X 符 号 
和 下 三 角 符号 D' 萎 形 符号 
上 三 角 符 号 'd’ 细 萎 形 符号 
pe 左 三 角 符号 | 竖 线 符号 
i 右 三 角 符号 Es 横 线 符号 


支持 的 标注 /线条 颜色 如 表 8. 2 所 示 。 


表 8.2 支持 的 标注 /线条 颜色 


符 号 颜 色 符 号 颜 色 
b' blue m magenta 
g green ba yellow 
red 上 black 
a cyan w white 


除了 符号 ,线条 的 颜色 可 以 通过 其 他 方式 设置 ,例如 十 六 进 制 字符 串 ('# FFFFFF')。 
下 列 代码 绘制 了 一 段 最 基本 的 折线 图 : 


import numpy as np 
import matplotlib. pyplot as plt 
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x= np. linspace( -2，6，5) 


Vi=xt3 # 一 条 直线 

22=3 一 x # 另 一 条 直线 

plt. figure() # 定 义 一 个 图 像 窗 口 
plt. plot(x, y1) # 绘 制 直线 1 

plt. plot(x, y2) # 绘 制 直线 2 

plt. show() 


np. linspace() 函数 用 于 创建 一 个 numpy 数组 ,该 数组 包含 一 2 一 6 的 等 差 的 5 个 
值 , 即 一 2.0.2、4、6。 事 实 上 ,由 于 绘制 的 是 直线 ,即使 只 有 两 个 值 (例如 一 2 和 6) ,也 
不 影响 最 终 的 显示 效果 。 但 是 如 果 绘 制 的 是 曲线 ,那么 点 越 多 ,密度 越 大 , 则 最 终 绘 
制 出 的 曲线 就 越 平滑 。yl 和 y2 分 别 是 这 5 个 值 对 应 直线 的 函数 值 组 成 的 numpy 数 
组 。plt. figure() 函 数 用 于 定义 一 个 图 像 窗口 ,plot() 函数 用 于 绘图 。 最 后 通过 调用 
show() 函 数 将 图 形 呈 现 出 来 ,如 图 8. 10 所 示 。 


图 8.10 绘制 的 两 条 直线 
上 述 代码 中 没有 为 plot() 函 数 提供 任何 样式 参数 ,因此 Matplotlib 以 默认 样式 
将 图 形 显示 出 来 。 为 了 美观 ,可 以 给 两 条 线 设置 期 望 的 颜色 和 线条 类 型 ,同时 还 给 纵 
轴 和 横 轴 设置 了 上 下 限 。 


import numpy as np 
import matplotlib. pyplot as plt 


# 创 建 一 个 点 数 为 8x6 的 窗口 , 并 设置 分 辨 率 为 80 像素 /英寸 
plt. figure(figsize= (8, 6), dpi= 80) 
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x= np.linspace( ~ 2, 6, 5) 
Wr+3 # 直线 1 
22=3 一 工 # 直 线 2 


# 绘 制 蓝 色 、 宽 度 为 1 个 像素 的 实 线 

plt. plot(x, yl, color= "blue", linewidth=1.0, linestyle="—") 

# 绘 制 紫 色 、 宽 度 为 2 个 像素 的 虚线 

Plt. plot(x, y2, color = "#800080", linewidth= 2.0, linestyle="——") 
# 设置 横 轴 的 上 下 限 为 -1 一 6 

plt.xlim( -1, 6) 

# 设置 纵 轴 的 上 下 限 为 -2 一 10 
plt. ylim( -2，10) 


plt. show( ) 


绘制 后 的 图 像 如 图 8. 11 所 示 。 


图 8.11 定制 后 的 直线 图 


2. 柱状 图 
通过 pyplot 的 barO) 函 数 可 以 生成 柱状 图 。bar0 〇 的 构造 函数 如 下 : 


bar(x height, width, * ,align = 'center', ** kwargs) 


其 中 ,x 是 包含 所 有 柱子 的 下 标的 列表 。height 是 包含 所 有 柱子 的 高 度 值 的 列 
。width 表示 每 个 柱子 的 宽度 ,如 果 指 定 一 个 固定 值 ,那么 所 有 的 柱子 都 是 相同 宽 
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度 ; 如 果 设置 一 个 列表 ,那么 可 以 分 别 对 每 个 柱子 设 定 不 同 的 宽度 。align 表示 柱子 
的 对 齐 方式 ,有 两 个 可 选 值 一 一 center 和 edge。center 表示 每 根 柱子 是 根据 下 标 来 
对 齐 ; edge 则 表示 每 根 柱子 全 部 以 下 标 为 起 点 ,显示 到 下 标的 右边 。 如 果 不 指定 
align 参数 ,默认 值 是 center。 

下 列 代码 演示 了 如 何 使 用 bar() 函 数 绘 制 一 个 柱状 图 : 


import numpy as np 
import matplotlib. pyplot as plt 


plt. figure(figsize= (8, 6), dpi= 80) 


# 柱子 总 数 

N=6 

# 包 含 每 个 柱子 对 应 值 的 序列 
values = (5, 16, 20, 25, 23, 28) 


# 包 含 每 个 柱子 下 标的 序列 
index = np. arange( N) 


# 柱 子 的 宽度 
width= 0.35 


# 绘 制 柱状 图 , 每 根 柱子 的 颜色 为 蓝 色 
p2= plt. bar(index, values, width,，label = "月 均 气温 "，color = "#87CEFA") 


# 设 置 模 轴 标签 

plt. xlabel(' 月 份 ') 

# 设 置 纵 轴 标 签 

plt. ylabel( ' 温 度 (摄氏 度 ) ) 


# 添加 标题 
plt.title( ' 月 均 气 温 ') 


# 添加 纵横 轴 的 刻度 
plt. xticks(index, (一 月 '，' 二 月 ',' 三 月 ',' 四 月 ',' 五 月 ',' 六 月 ')) 


plt. yticks(np. arange(0, 50, 10)) 


# 添 加 图 例 
plt. legend( loc = "upper right") 


绘制 后 的 图 像 如 图 8. 12 所 示 。 
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-月 -月 四 月 ”五 月 六 月 
图 8.12 柱状 图 示例 


3. 饼 图 


通过 pyplot 的 pie() 函 数 可 以 生成 饼 图 。pie() 的 构造 函数 如 下 : 


matplotlib. pyplot. pie (x, explode = None, labels = None, colors = None, autopct = None, 
pctdistance= 0.6, shadow = False, labeldistance = 1.1, startangle = None, radius = None, 
counterclock = True, wedgeprops = None, textprops = None, center = (0, 0), frame = False, 
rotatelabels = False, *, data= None) 


该 构造 函数 参数 较 多 ,其 中 ,x 为 数值 列表 ,作为 饼 图 的 数据 ; explode 指定 饼 图 
中 突出 的 分 片 ; labels 设置 各 个 分 片 的 标签 ; colors 设置 各 个 分 片 的 颜色 ; autopct 设 
置 标签 中 的 数字 格式 ; shadow 设置 是 否 有 阴影 ; startangle 设置 从 哪个 角度 开始 绘 
制 圆 饼 。 

下 列 代码 演示 了 一 个 最 基本 的 饼 图 : 


import matplotlib. pyplot as plt 


iabel#= 大 二 
sizes= [15, 30, 45, 10] 
explode = (0, 0.1, 0, 0) # 将 "大 二 "突出 显示 


figl, axl = plt. subplots() 

axl. pie(sizes, explode = explode, labels= labels, autopct = '%1.1f% %', 
shadow = True, startangle = 90) 

ax1.axis('equal') 井 确保 饼 图 是 个 圆 形 


plt. show( ) 
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绘制 后 的 图 像 如 图 8. 13 所 示 。 


天 大 四 
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图 8.13 饼 图 示例 


8.2.3 图 表 定 制 


1. 设置 横 轴 、 纵 轴 的 界限 以 及 标注 


在 图 像 中 ,不 能 想当然 地 认为 横 轴 就 是 X 轴 , 纵 轴 就 是 Y 轴 。 图 形 因 数据 不 同 ， 
纵 / 横 轴 标 签 往往 也 会 不 同 。 这 也 体现 了 给 纵 / 横 轴 设 置 标签 说 明 的 重要 性 : 

# 设 置 横 轴 标签 

Blt.xlabel("X") 

# 设 置 纵 轴 标 签 


plt. ylabel("Y") 


plt. show() 
很 多 时 候 , 需 要 设置 模 轴 和 纵 轴 的 界限 ,从 而 得 到 更 加 清晰 明了 的 图 形 : 


plt.xlim(X.min() *1.1, X.max()*1.1) 
plt. ylim(C.min()*1.1, C.max()*1.1) 


上 述 代码 将 横 轴 、 纵 轴 的 上 下 限 分 别 设 为 了 数据 上 下 限 的 1.1 倍 。 

此 外 ,为 了 更 好 地 表示 横 轴 和 纵 轴 数 据 的 含义 ,可 以 通过 ticks() 函数 对 横 轴 和 
纵 轴 的 含义 进行 设置 和 定制 。 在 Matplotlib 中 ,图形 默认 设置 的 刻度 由 曲线 以 及 窗 
口 的 像素 点 等 因素 决定 。 如 果 这 些 刻 度 的 精确 度 无 法 满足 需求 , 则 需要 用 户 手动 
添加 刻度 。 
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plt.xlim(x.min() *1.1, x.max()*1.1) 
# 设 置 横 轴 精 准 刻 度 
plt. xticks(np.arange( ~ 1, 6, 0.5)) 


plt. ylim(C. min() *1.1,C.max() *1.1) 
# 设 置 纵 轴 精 准 刻度 
plt. yticks(np. arange( ~ 2, 10)) 


plt. show() 


xticks() 和 yticks() 需要 传人 一 个 列表 作为 参数 。 该 方法 默认 使 用 列表 的 值 来 
设置 刻度 标签 ,如果 用 户 想 重新 设置 刻度 标签 , 则 需要 传人 两 个 列表 参数 给 xticks() 
和 yticks() ,第 一 个 列表 的 值 代表 刻度 ; 第 二 个 列表 的 值 代表 刻度 所 显示 的 标签 。 

# 设 置 横 轴 精准 刻度 


plt. xticks(np. arange( -1，7)， 
| ot et ee 


# 设置 纵 轴 精 准 刻度 


plt. yticks(np. arange( -2，11,2)， 
[一 2ma"，"0m"，"2m"， "4m", "6m", "3m", "10m"]) 


plt. show() 


2. 添加 图 例 


如 果 需 要 在 图 的 左上 角 添 加 一 个 图 例 , 只 需 在 plot() 函 数 里 以 * 键 - 值 ”的 形式 增 
加 一 个 参数 。 首 先 需要 在 绘制 曲线 的 时 候 增加 一 个 label 参数 ,然后 再 调用 plt. 
legend() 绘制 出 一 个 图 例 。plt. legend() 需 要 传人 一 个 位 置 值 loc, 其 可 选 的 值 如 
表 8. 3 所 示 。 
表 8.3 位 置 值 loc 的 可 选 值 


位 置 字符 串 位 置 代码 位 置 字符 串 位 置 代码 
"best'" 0 "center left” 6 
“upper right 1 "center right'" 区 
"upper left'" 2 "lower center" 8 
"lower left' 3 "upper center" 9 
"lower right' 4 ‘center’ 10 
right" 5 

例如 : 


Plt.plot(x, yl, color = "blue", linewidth=1.0, linestyle="—", label= "yl") 
Pplt.plot(x, y2, color = "#800080", linewidth= 2.0, linestyle="——", label = "y2") 
plt. legend(loc = "upper left") # 将 图 例 绘制 在 左上 角 
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上 述 代码 在 图 8. 11 的 基础 上 增加 了 图 例 ,如 图 8. 14 所 示 。 


yr 


si 


图 8.14 在 绘图 中 添加 图 例 


3. 注释 特殊 点 位 


有 时 某 些 数据 点 非常 关键 ,需要 突显 出 来 ,那么 可 以 将 该 点 绘制 出 来 , 即 绘制 散 


点 图 ,再 对 其 做 注释 。 这 里 要 用 到 scatter() 和 annotate() 函 数 。 


scatter() 函 数 用 于 绘制 散 点 图 ,该 函数 需要 传人 两 个 列表 作为 参数 x 和 y。x 代 
表 要 标注 点 的 横 轴 位 置 ,y 代表 要 标注 点 的 纵 轴 位 置 。x 和 y 列表 中 下 标 相同 的 数据 
是 对 应 的 。 例 如 x 为 [3, 4],y 为 [6, 8], 这 表示 会 绘制 点 (3,6)、(4,8)。 因 此 ,x 和 y 


长 度 要 一 样 。 


annotate() 函 数 同样 也 有 两 个 必 传 参数 ,一 个 是 标注 内 容 , 另 一 个 是 xy 坐标 。 标 
注 内 容 是 一 个 字符 串 ,xy 表示 要 在 哪个 位 置 (点 ) 显 示 标 注 内 容 。xy 的 坐标 位 置 一 般 


是 在 scatter() 绘制 点 附近 ,例如 点 的 右 侧 或 下 方 。 


plt. plot(x, yl, color = "blue", linewidth=1.0, linestyle="—", label= "yl") 


# 绘 制 散 点 (3, 6) 

plt. scatter([3], [6], s=30, color = "blue") #s 为 点 的 大 小 

# 对 (3，6) 做 标注 

plt.annotate("(3, 6)", 
y= (53 5 # 在 (3.3, 5.5) 上 做 标注 
fontsize = 16) # 设 置 字体 大 小 为 16 


plt. plot(x, y2, color ="#800080", linewidth=2.0, linestyle="-—", label ="y2") 


# 绘 制 散 点 (3,0) 
plt. scatter([3], [0], s= 50, color = "#800080") 
# 对 (3, 0) 做 标注 
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plt. annotate("(3, 0)", 
xy= (3.3, 0), # 在 (3.3, 0) 上 做 标注 
fontsize= 16) # 设 置 字体 大 小 为 16 


上 述 代 码 分 别 在 (3,6) 和 (3,0) 两 个 位 置 绘 制 了 两 个 点 ,如 图 8. 15 所 示 。 


8 
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8.15 在 图 表 中 绘制 点 


现在 点 已 经 被 标注 出 来 了 ,如 果 还 想 给 点 添加 注释 ,需要 使 用 text() 函数 。 
text(x,y，,s) 的 作用 是 在 坐标 (x,y) 处 添加 文本 。 


# 绘 制 散 点 (3，0) 

plt. scatter([3], [0], s=50, color="#800080") 

# 对 (3，0) 做 标注 

plt.annotate("(3, 0)", xy= (3.3, 0)) 

plt.text(4，- 0.5，" 该 处 为 重要 点 位 "，fontdict = {'size': 12, 'color': 'green'}) 


效果 如 图 8. 16 所 示 。 
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8.16 在 图 表 中 添加 注释 文字 
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8.2.4 保存 图 表 


pyplot 的 savefig() 函数 可 以 将 图 表 保 存 成 图 像 文件 : 


plt. savefig( 'C:\\pic. png', 
dpi= 800, 
bbox_inches = 'tight', 
facecolor = Ww', 
edgecolor = 'blue') 
# 可 支持 png、pdf、svg、ps、eps 等 ,以 后 级 名 来 指定 
# dpi 是 分 辩 率 
# bbox_inches: 图 表 需 要 保存 的 部 分 .如 果 设 置 为 'tight', 则 尝试 剪除 图 表 周 围 的 空白 部 分 
#facecolor, edgecolor: 图 像 的 背景 色 ,默认 为 'w'( 白 色 ) 


8.3 更 多 高 级 图 表 及 定制 
8.3.1 样式 


用 于 Matplotlib 的 样式 与 用 于 HTML 页 面 的 CSS( 层 全 样式 表 ) 非 常 相似 。 在 
Matplotlib 中 可 以 使 用 for 循环 对 各 个 元 素 的 样式 逐个 修改 ,使 代码 量 降低 ,也 可 以 
在 Matplotlib 中 利用 这 些 样式 。 

样式 表 是 将 自 定义 样式 写 入 文件 ,之 后 如 果 想 要 使 用 这 些 样式 ,可 以 将 这 些 样式 
导入 。 这 样 ,就 不 必 为 每 个 图 表 编 写 大 量 自 定义 的 样式 代码 ,而 是 复 用 之 前 写 好 的 样 
式 即 可 。 

导入 样式 的 代码 如 下 : 


from matplotlib import style 


接 下 来 ,需要 指定 要 使 用 的 样式 。Matplotlib 内 置 了 若干 可 用 样式 ,可 以 用 
style. use() 函数 来 指定 : 


style. use( 'ggplot') 
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ggplot 的 样式 大 概 如 图 8. 17 所 示 , 可 以 看 到 ,标签 的 颜色 是 灰色 的 ,Axes 的 背 
景 是 浅 灰色 。 网 格 实际 上 是 一 个 白色 的 实 线 。 


图 8.17 ”ggplot 样式 示例 
fivethirtyeight 是 另 一 种 内 置 样式 ,效果 如 图 8. 18 所 示 。 


63.0 shey 


59.5 
59.0 


Se > en a 
a 


8.18 fivethirtyeight 样式 示例 
如 果 用 户 不 清楚 自己 的 环境 中 有 哪些 内 置 样式 ,可 以 使 用 下 列 代 码 查看 所 有 可 
用 样式 : 
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一 般 来 说 会 输出 ['bmh',， 'dark_background ' ，'ggplot ' ，fivethirtyeight'， 
"grayscale'] 几 种 样式 。 请 尝试 使 用 其 他 几 种 样式 查看 结果 。 


8.3.2 subplot 子 区 


在 Matplotlib 中 可 以 组 合 许多 小 图 ， 放 在 一 张大 图 里 面 显示 ,每 个 国史 
万 

小 图 被 称 为 一 个 子 图 。 用 户 可 以 使 用 plt. subplot() 实 现 这 样 的 功能 。 

例如 plt. subplot(2,2,1) 表 示 将 整个 图 像 窗口 分 为 2 行 2 列 , 当前 位 置 为 1。 使 
用 plt. plot([0,1],[0,1]) 在 第 1 个 位 置 创建 一 个 小 图 。 

plt. subplot(2,2,1) 

plt. plot([0,1],[0,1]) 

plt. subplot(2,2,2) 表 示 将 整个 图 像 窗 口 分 为 2 行 2 列 ,当前 位 置 为 2。 使 用 
plt. plot([0,1],[0,2]) 在 第 2 个 位 置 创 建 一 个 小 图 。 

plt. subplot(2,2,2) 

plt. plot([0,1],[0,2]) 

plt. subplot(2,2,3) 表 示 将 整个 图 像 窗 口 分 为 2 行 2 列 , 当 前 位 置 为 3。plt. 
subplot(2,2,3) 可 以 简写 成 plt. subplot(223)， Matplotlib 同样 可 以 识别 。 使 用 plt. 
plot([0,1],[0,3]) 在 第 3 个 位 置 创 建 一 个 小 图 。 


plt. subplot(223) 
plt. plot([0,1],[0,3]) 


plt. subplot(224) 表 示 将 整个 图 像 窗口 分 为 2 行 2 列 , 当前 位 置 为 4。 使 用 plt. 
plot([0,1],[0,4]) 在 第 4 个 位 置 创建 一 个 小 图 。 


plt. subplot(224) 
plt.plot([0,1],[0,4]) 


plt. show( ) 


在 上 述 示例 中 每 个 小 图 的 大 小 完全 相同 ,事实 上 小 图 的 大 小 可 以 不 同 。 以 上 面 
的 4 个 小 图 为 例 ( 如 图 8.19 所 示 ) ,把 第 1 个 小 图 放 到 第 1 行 ,而 把 剩 下 的 3 个 小 图 
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图 8.19 subplot 子 图 示例 
都 放 到 第 2 行 。 
使 用 plt. subplot(2,1,1) 将 整个 图 像 窗口 分 为 2 行 1 列 ,当前 位 置 为 1。 使 用 
plt. plot([0,1],[0,1]) 在 第 1 个 位 置 创 建 一 个 小 图 。 


plt. subplot(2,1,1) 
plt. plot([0,1],[0,1]) 


使 用 plt. subplot(2,3,4) 将 整个 图 像 窗口 分 为 2 行 3 列 , 当前 位 置 为 4。 使 用 
plt. plot([0,1],[0,2]) 在 第 4 个 位 置 创建 一 个 小 图 。 


plt. subplot(2,3,4) 
Plt. plot([0,1],[0,2]) 


这 里 需要 解释 一 下 为 什么 在 第 4 个 位 置 放 第 2 个 小 图 。 在 上 一 步 中 使 用 plt. 
subplot(2,1,1) 将 整个 图 像 窗口 分 为 2 行 1 列 , 第 1 个 小 图 占用 了 第 1 个 位 置 , 也 就 
是 整个 第 1 行 。 这 一 步 中 使 用 plt. subplot(2,3,4) 将 整个 图 像 窗 口 分 为 2 行 3 列 , 于 
是 整个 图 像 窗口 的 第 1 行 就 变 成 了 3 列 , 也 就 是 成 了 3 个 位 置 , 所 以 第 2 行 的 第 1 个 
位 置 是 整个 图 像 窗口 的 第 4 个 位 置 。 

使 用 plt. subplot(235) 将 整个 图 像 窗口 分 为 2 行 3 列 ,当前 位 置 为 5。 使 用 plt. 
plot([0,1],[0,3]) 在 第 5 个 位 置 创建 一 个 小 图 。 同上, 再 创建 plt. subplot(236) 。 
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plt. subplot(235) 
plt.plot([0,1],[0,3]) 


plt. subplot(236) 
plt. plot([0,1],[0,4]) 


Plt. show() # 展 示 


显示 效果 如 图 8. 20 所 示 。 
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图 8.20 2 行 3 列 子 图 示例 
8.3.3 图 表 颜 色 和 填充 


颜色 和 线条 填充 是 可 视 化 图 表 绘 制 自 定义 中 的 常用 方法 。 

首先 是 标签 的 颜色 更 改 , 可 以 通过 修改 轴 中 的 标签 对 象 来 实现 : 

axl. xaxis. label. set_color('c') 

axl. yaxis. label. set_color( 'r') 

通过 调用 标签 对 象 的 set_color() 方 法 ,将 标签 文本 设置 为 目标 颜色 。 接 下 来 可 
以 为 要 显示 的 轴 指 定 具 体 数字 ,并 做 填充 。 所 谓 的 填充 ,是 指 在 变量 和 所 选择 的 一 个 
数值 之 间 填 充 颜色 。 例 如 : 


ax1. fill between(date, 0, closep) 
for label in axl.xaxis.get ticklabels(): 
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label. set_rotation(45) 
axl.grid(True)#, color= 'g', linestyle='—', linewidth= 5) 
axl. xaxis. label. set_color('c') 
axl. yaxis. label. set_color( 'r') 
axl. set_yticks([0,25,50,75]) 
plt. xlabel( 'Date') 
plt. ylabel( 'Price') 
plt. titlel( stock) 
plt. legend() 
plt. subplots_adjust (left = 0. 09, bottom = 0.20, right = 0.94, top = 0.90, wspace = 0.2, 
hspace = 0) 
plt. show( ) 


显示 结果 如 图 8. 21 所 示 。 


图 8.21 填充 图 表示 例 


8.3.4 动画 


可 以 使 用 Matplotlib 实现 简单 的 动画 功能 ,function animation 是 其 中 一 种 较为 
简便 的 方法 ,具体 可 参考 Matplotlib animation API。 首 先 需 要 引入 pyplot 和 
animation 两 个 模块 ; 

from matplotlib import pyplot as plt 

from matplotlib import animation 


import numpy as np 
fig, ax= plt. subplots() 


所 用 数据 是 一 个 0 一 2x 的 正弦 曲线 : 


x= np.arange(0, 2* np.pi, 0.01) 
line, =ax. plot(x, np. sin(x)) 
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接着 构造 自 定 义 动画 函数 animate() ,用 来 更 新 每 一 帧 上 各 个 x 对 应 的 y 坐标 
值 , 参 数 表示 第 i 帧 ; 


def animate(i) : 


line. set_ydata(np. sin(x + i/10.0)) 
return line, 


然后 构造 开始 帧 函数 init() : 


definit() : 
line. set_ydata(np. sin(x) ) 
return line, 


接 下 来 调用 FuncAnimation() 函数 生成 动画 。 参 数 说 明 如 下 。 

。 fig: 进行 动画 绘制 的 figure。 

。 func: 自 定义 动画 函数 , 即 传人 刚 定义 的 函数 animate。 

。 frames: 动画 长 度 ,一 次 循环 包含 的 帧 数 。 

。 init_func: 自 定义 开始 帧 , 即 传 入 刚 定义 的 函数 init。 

。 interval: 更 新 频率 ,以 ms 计 。 

。 blit: 选择 更 新 所 有 点 ,还 是 仅 更 新 产生 变化 的 点 。 通 常 选择 True, 但 Mac 用 
户 请 选择 False, 否 则 无 法 显示 动画 。 


ani = animation. FuncAnimation(fig = fig, 
func = animate, 
frames = 100, 
init_ func= init, 


interval = 20, 
blit = False) 
显示 动画 : 
plt. show( ) 
当然 ,也 可 以 将 动画 以 MP4 格式 保存 下 来 .但 首先 要 保证 环境 中 已 经 安装 了 


FFmpeg 或 者 Mencoder。 


ani. save( 'basic animation. mp4', fps= 30, extra args=['— vcodec', 'libx264']) 
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本 章 小 结 


本 章 先 向 读者 介绍 说 明 数 据 可 视 化 的 基本 概念 和 常用 的 数据 图 表 ; 然后 介绍 
Python 的 Matplotlib 可 视 化 库 , 重 点 介绍 如 何 使 用 该 库 的 pyplot 对 象 制作 图 表 , 包 
括 点 线 图 .柱状 图 等 常用 图 表 , 接 下 来 介绍 图 表 定 制 的 基本 方法 ,最 后 讲述 高 级 的 图 
表 定 制 。 


习题 


1. 创建 一 个 函数 ,要 求 绘制 出 > 一 x^a 宕 函数 的 图 形 ,该 函数 输入 一 个 数值 型 参 
数 作为 宕 函数 的 指数 。 例 如 输入 参数 2, 则 绘制 出 y= 二 x "2 的 图 形 。 

2. 随机 生成 1000 个 [0,1] 区 间 内 的 数字 作为 X, 再 随机 生成 1000 个 [0,1] 区 间 
内 的 数字 作为 Y, 将 1000 个 X、Y 坐标 绘制 成 散 点 图 。 


第 外 总 


数据 库 应 用 开发 


本 章 学 习 目 标 : 
。 理解 数据 库 的 基本 概念 
。 熟练 掌握 常用 的 Python 数据 库 管 理 的 相关 库 
。 熟练 掌握 使 用 Python 进行 数据 库 的 操作 
本 章 先 向 读者 介绍 数据 库 的 基本 概念 和 Python 的 数据 库 开 发 环境 ; 然后 介绍 
嵌入 式 数 据 库 、 关 系 型 数据 库 .NoSQL 数据 库 的 基本 概念 ,并 分 别 以 SQLite、MySQL 
和 MongoDB 为 例 , 介 绍 其 使 用 方法 和 利用 Python 对 其 进行 操作 的 基本 方法 。 


9.1 Python 与 数据 库 


9.1.1 数据 库 简介 


当 程 序 运行 的 时 候 , 数 据 都 存在 于 内 存 当 中 。 当 程序 终止 的 时 候 ,通常 需要 将 数 


据 保存 到 磁盘 上 。 无 论 是 保存 到 本 地 磁盘 ,还 是 通过 网 络 保存 到 服务 器 上 ,最 终 都 会 
将 数据 写 人 磁盘 文件 。 


如 何 定 义 数据 的 存储 格式 是 一 个 大 问题 。 如 果 用 户 自己 定义 存储 格式 ,例如 保 


存 一 个 班级 中 所 有 学 生成 绩 的 成 绩 单 ,如 表 9. 1 所 示 。 


表 9.1 成 绩 单 
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张 三 


99 


李 四 


85 


季 焉 


82 


赵 六 


92 


可 以 用 一 个 文本 文件 保存 ,一行 保 存 一 个 学 生 ,姓名 和 成 绩 之 间 用 逗号 ”," 隔 开 : 


张 三 ,99 
李 四 ,85 
王 五 ,82 
赵 六 ,92 


这 种 格式 被 称 为 CSV(Comma-Separated Values, 逗 号 分 隔 值 ) 。 当 然 , 也 可 以 用 
其 他 文本 格式 保存 ,例如 JSON 格式 : 


[ 


{f"name" :" 张 三 ","score" :99}， 
{"name" :" 李 四 ","score" :85}， 
{"name" :" 王 五 ","score" :82}， 


{"name":" 赵 六 ", "score" :92} 


上 述 两 种 都 属于 通用 格式 ,用 户 还 可 以 定义 自己 的 各 种 保存 格式 ,但 是 这 样 存储 
和 读 取 也 需要 自己 实现 ,并 且 每 定义 一 种 格式 都 需要 一 种 存储 和 读 取 的 方法 。 另 外 ， 
对 于 文本 文件 的 读 取 不 能 实现 快速 查询 ,只 有 把 数据 全 部 读 到 内 存 中 才能 遍历 ,但 有 
时 候 数据 的 大 小 远 远 超过 了 内 存 ( 例 如 蓝光 电影 ,40GB 的 数据 ), 根 本 无 法 一 次 性 将 


其 全 部 读 入 。 


为 了 便于 程序 保存 和 读 取 数据 ,并 能 直接 通过 检索 条 件 快速 查询 到 指定 的 数据 ， 
出 现 了 数据 库 (Database) 这 种 专门 用 于 集中 存储 和 查询 的 软件 。 

数据 库 软 件 的 历史 非常 久远 , 早 在 1950 年 数据 库 就 诞生 了 。 它 经 历 了 网 状 数据 
库 .层次 数据 库 等 各 种 形态 ,直到 20 世纪 70 年 代 诞 生 了 基于 关系 模型 的 关系 数据 


库 ,并 被 广泛 使 用 至 今 。 


关系 模型 有 一 套 复杂 的 数学 理论 ,但 从 概念 上 是 十 分 容易 理解 的 。 举 个 学 校 的 
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O 
例子 : 
假设 某 小 学 有 3 个 年 级 ,要 表示 出 这 3 个 年 级 ,可 以 用 一 个 表格 画 出 来 ,如 图 9. 1 
所 示 。 
每 个 年 级 又 有 若干 个 班 , 要 把 所 有 班级 表示 出 来 ,可 以 再 画 一 个 表格 ,如 图 9. 2 
所 示 。 
Grade ID | Class ID Name 
1 11 -年 级 一 更 
1 12 一 年 级 二 班 
1 13 年 级 三 到 
2 21 二 年 级 一 班 
和 22 二 年 级 二 班 
3 31 三 年 级 一 于 
3 32 三 年 级 二 斑 
3 33 三 年 级 三 班 
他 34 三 年 级 四 于 
图 9.1 用 表格 表示 年 级 图 9.2 用 表格 表示 班级 


这 两 个 表格 有 个 映射 关系 ,就 是 根据 Grade_ID 可 以 在 班级 表 中 查找 到 对 应 的 所 
有 班级 ,如 图 9. 3 所 示 。 


图 9.3 根据 Grade_ID 在 班级 表 中 查找 到 对 应 的 所 有 班级 


也 就 是 Grade 表 的 每 一 行 对 应 Class 表 的 多 行 。 在 关系 数据 库 中 ,这 种 基于 表 
(Table) 的 一 对 多 的 关系 就 是 关系 数据 库 的 基础 。 
根据 某 个 年 级 的 ID 就 可 以 查找 该 年 级 所 有 班级 的 记录 ,这 种 查询 语句 在 关系 数 
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据 库 中 称 为 SQL 语句 ,可 以 写成 : 


SELECT * FROM Class WHERE Grade ID= '1'; 


其 结果 也 是 一 个 表 : 


EE EA 
Grade ID | Class_ID | Name 

Rs RE 
1 i | 一 年 级 一 班 
SR Ee 
让 [2 | 一 年 级 二 班 
a Td 
fas | 至 年 级 三 
Ee PP i 扑 区 下 下 


类 似 地 ,Class 表 的 一 行 记 录 又 可 以 关联 到 Student 表 的 多 行 记录 ,如 图 9.4 所 示 。 


[me sD | css ID | Nome | rs 
1 11 一 年 级 一 更 | 
! 了 -年 级 二 更 RN . 11| 10002 |BOb | 85 
1 13 -年 级 三 班 11| 10003 | Bart 59 

2 21 -年 级 一 班 | 10004 |Lisa | 87 | 
多 22 年 级 二 现 12| 10005 |Tracy 91 
3 31 :年 级 一 现 | [Ls 

3 32 级 二 班 

3 33 三 年 级 三 

3 34 三 年 级 四 现 


图 9.4 ”Class 表 的 一 行 记录 关联 Student 表 的 多 行 记录 


总 的 来 说 ,关系 数据 由 二 维 表格 和 表格 之 间 的 联系 作为 基础 ,再 搭配 一 系列 的 工 
有 具 ,例如 查询 .索引 、\ 视 图、 存储 过 程 等 ,能 够 实现 极其 复杂 的 数据 管理 功能 。 

下 面 介绍 几 种 目前 广泛 使 用 的 关系 数据 库 。 

(1) 付费 的 商用 数据 库 。 

。 Oracle: 世界 上 最 流行 .最 专业 的 商业 关系 型 数据 库 系 统 。 

。 SQL Server: 微软 的 产品 , 专 为 Windows 定制 。 

。 DB2: IBM 的 产品 ,主要 应 用 于 大 型 应 用 系统 。 

这 些 数 据 库 都 是 不 开源 而 且 付 费 的 ,最 大 的 优势 是 售后 支持 服务 出 了 问题 可 以 
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找 厂家 解决 。 

(2) 免费 的 开源 数据 库 。 

。 MySQL: 最 主流 的 开源 数据 库 。 

。 PostgreSQL: 功能 、 性 能 都 很 优秀 的 开源 数据 库 ,知名 度 略 低 于 MySQL, 但 

发 展 势头 迅猛 。 

。 SQLite: 做 入 式 数 据 库 ,适合 桌面 和 移动 应 用 。 

在 如 今 以 互联 网 为 基础 的 大 数据 时 代 , 经 常 需要 部 署 成 千 上 万 的 数据 库 服务 器 ， 
所 以 无 论 是 Google、Facebook 还 是 国内 的 百度 、 阿 里 巴巴 、 腾 讯 等 互联 网 巨头 ,无 一 
例外 都 选择 了 免费 的 开源 数据 库 作 为 主要 的 数据 存储 方案 。 

对 于 初学 者 来 说 ,建议 至 少 熟练 掌握 MySQL 和 PostgreSQL 数据 库 中 的 一 种 ， 
一 方面 ,这 两 种 数据 库 可 以 免费 下 载 ,无 须 付 费 ; 另 一 方面 ,这 二 者 与 商业 数据 库 相 
比 更 为 小 巧 ,操作 管理 更 为 简便 ,学 习 难 度 更 低 。 

当然 ,关系 型 数据 库 虽 然 是 主流 ,但 不 是 唯一 的 数据 库 类 型 。 最 近 几 年 兴起 的 非 
关系 型 数据 库 正 在 日 益 发 展 并 逐渐 挑战 关系 型 数据 库 的 主流 地 位 ,很 多 NoSQL 产品 
宣传 其 速度 和 规模 远 远 超 过 关系 型 数据 库 。 

NoSQL 一 词 最 早出 现 于 1998 年 , 它 是 Carlo Strozzi 开发 的 一 个 轻 量 、 开 源 、 不 
提供 SQL 功能 的 关系 数据 库 。 

2009 年 ,Last. fm 的 Johan Oskarsson 发 起 了 一 次 关于 分 布 式 开 源 数据 库 的 讨 
论 ,来 自 Rackspace 的 Eric Evans 再 次 提出 了 NoSQL 的 概念 ,这 时 的 NoSQL 主要 指 
非 关 系 型 .分布 式 ,不 提供 ACID 的 数据 库 设 计 模式 。 

2009 年 在 亚特兰大 举行 的 “no: sql(east)” 讨 论 会 是 一 个 里 程 碑 , 其 口号 是 
“SELECT fun, profit FROM real _world WHERE relational 二 False;”。 因 此 ,对 
NoSQL 最 普遍 的 解释 是 “ 非 关 联 型 的 ”, 强 调 Key-Value Stores 和 文档 数据 库 的 优 
点 ,而 不 是 单纯 地 反对 关系 型 数据 库 。 

现在 一 般 认为 NoSQL 的 优点 主要 包括 高 可 扩展 性 、 分 布 式 计算 、 低 成 本 、 架 构 的 
灵活 性 、 半 结构 化 数据 、 没 有 复杂 的 关系 。 当 然 ,NoSQL 也 有 一 些 缺 点 ,例如 没有 标 
准 化 有 限 的 查询 功能 (到 目前 为 止 ) ,缺少 优秀 的 客户 端 程序 等 。 


9.1.2 Python 数据 库 工 作 环境 


由 于 各 数据 库 之 间 的 应 用 接口 非常 混乱 ,实现 各 不 相同 ,如 果 项 目 需要 更 换 数据 
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库 , 则 需要 做 大 量 的 修改 ,非常 不 便 。Python DB-API 的 出 现 就 是 为 了 解决 这 样 的 
问题 。 

Python 所 有 的 数据 库 接口 程序 都 在 一 定 程度 上 遵守 Python DB-API 规范 。 
DB-API 定 义 了 一 系列 必需 的 对 象 和 数据 库存 取 方式 ,以 便 为 各 种 底层 数据 库 系统 和 
多 种 多 样 的 数据 库 接口 程序 提供 一 致 的 访问 接口 。 由 于 DB-API 为 不 同 的 数据 库 提 
供 了 一 致 的 访问 接口 ,在 不 同 的 数据 库 之 间 移 植 代 码 成 为 一 件 轻松 的 事情 。 

Python DB-API 的 使 用 流程 如 下 : 

(1) 引入 API 模 块 。 

(2) 获取 与 数据 库 的 连接 。 

(3) 执行 SQL 语句 和 存储 过 程 。 

(4) 关闭 数据 库 连接 。 


1. 使 用 connect() 创 建 Connection 连接 


DB-API 中 的 connect() 方 法 能 生成 一 个 Connect 对 象 ,用 户 可 以 通过 这 个 对 象 
来 访问 数据 库 。 符 合 标准 的 模块 都 会 实现 connect() 方 法 。 

connect() 方 法 的 参数 如 下 。 

。 user: 数据 库 连 接 用 户 名 。 

。 password: 连接 密码 。 

。 host: 主机 名 。 

。 database: 数据 库 名 。 

。 dsn: 数据 源 名 。 

数据 库 连接 参数 可 以 以 一 个 DSN 字符 串 的 形式 提供 ,例如 connect (dsn== 'host: 
MYDB',user 一 'root',password 一 ")。 当 然 , 不 同 的 数据 库 接 口 程 序 可 能 有 些 差异 ， 
并 非 都 是 严格 按照 规范 实现 ,例如 MySQLdb 使 用 db 参数 而 不 是 使 用 规范 推荐 的 
database 参数 来 表示 要 访问 的 数据 库 。 

此 外 ,Connect 对 象 还 有 如 下 方法 。 

。 close(): 关闭 当前 Connect 对 象 ,关闭 后 无 法 进行 操作 ,除非 再 次 创建 连接 。 


。 commit(): 提交 当前 事务 ,如 果 是 支持 事务 的 数据 库 执行 增 / 删 / 改 后 没有 
commit, 则 数据 库 默 认 回 滚 。 


。 rollback(): 取消 当前 事务 。 
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cursor(): 创建 游标 对 象 。 


使 用 Cursor() 创 建 游 标 对 象 


Cursor( 游 标 ) 对 象 有 如 下 属性 和 方法 。 


1) 


2) 
3) 
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_ 


常用 方法 

close() : 关闭 此 游标 对 象 。 

fetchone(): 得 到 结果 集 的 下 一 行 。 

fetchmany([ size 二 cursor. arraysize]) : 得 到 结果 集 的 下 几 行 。 
fetchall(): 得 到 结果 集中 剩 下 的 所 有 行 。 

excute(sqlL，args]) : 执行 一 个 数据 库 查 询 或 命令 。 
excutemany(sql，args) : 执行 多 个 数据 库 查 询 或 命令 。 

常用 属性 

connection: 创建 此 游标 对 象 的 数据 库 连 接 。 

arraysize: 使 用 fetchmany() 方 法 一 次 取出 多 少 条 记录 ,默认 为 1。 
lastrowid: 上 一 行 的 行 号 。 

其 他 方法 

__iter (): 创建 一 个 可 和 迭代 对 象 (可 选 ) 。 

next() : 获取 结果 集 的 下 一 行 ( 如 果 支 持 迭 代 )。 

nextset() : 移 到 下 一 个 结果 集 ( 如 果 支 持 ) 。 

callproc(func[ ,args]): 调用 一 个 存储 过 程 。 

setinputsizes(sizes): 设置 输入 最 大 值 (必须 有 ,但 具体 实现 是 可 选 的 )。 
setoutputsizes(sizes[ ,col]): 设置 大 列 获取 的 最 大 缓冲 区 大 小 。 
其 他 属性 

description: 返回 游标 活动 状态 (包含 7 个 元 素 , 即 name、type_code、display_ 
size 、internal _size、precision 、scale、null _ok) 的 元 组 ,只 有 name 和 type_ 
code 是 必需 的 。 

rowcount: 最 近 一 次 execute() 创 建 或 影响 的 行 数 。 

messages: 游标 执行 后 数据 库 返回 的 信息 元 组 (可 选 ) 。 

rownumber: 当前 结果 集中 游标 所 在 行 的 索引 (起 始 行 号 为 0) 。 
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9.2 本 地 数据 库 SQLite 


9.2.1 SQLite 简介 


SQLite 是 一 种 嵌入 式 数据 库 , 它 的 数据 库 就 是 一 个 文件 。 由 于 SQLite 本 身 是 
用 C 语言 写 的 ,而 且 体 积 很 小 ,所 以 经 常 被 集成 到 各 种 应 用 程序 中 ,甚至 在 iOS 和 
Android 的 App 中 都 可 以 集成 。 

市 面 上 主流 的 数据 库 很 多 ,为 什么 要 使 用 SQLite 呢 ? 简单 来 说 ,SQLite 有 下 面 
几 个 优势 : 

(1) SQLite 不 需要 一 个 单独 的 服务 器 进程 或 系统 操作 (服务 器 ) 。 

(2) SQLite 不 需要 配置 ,这 意味 着 它 不 需要 安装 或 管理 。 

(3) 一 个 完整 的 SQLite 数据 库 可 存储 在 跨 平 台 的 磁盘 文件 中 。 

(4) SQLite 非常 小 .重量 轻 ,完全 配置 的 版 本 小 于 400KB, 省 略 可 选 功能 的 版 本 
甚至 小 于 250KB。 

(5) SQLite 是 自 配 置 的 、 独 立 的 ,这 意味 着 它 不 需要 依赖 任何 外 部 应 用 程序 或 
环境 。 

(6) SQLite 的 交易 完全 符合 ACID, 允 许多 个 进程 或 线程 安全 访问 。 

(7) SQLite 支持 大 多 数 (SQL2) 符 合 SQL92 标准 的 查询 语言 功能 。 

(8) SQLite 提供 了 简单 和 易于 使 用 的 API。 

(9) SQLite 可 在 UNIX 和 Windows 中 运行 。 

当然 ,SQLite 也 不 是 没有 缺点 , 它 一 般 只 能 用 于 处 理 小 到 中 型 数据 量 的 存储 ,对 
于 高 并 发 .高 流量 的 应 用 并 不 适用 。 


9.2.2 Python 内 置 的 sqlite3 模块 


Python 本 身 内 置 了 sqlite3, 所 以 在 Python 中 使 用 SQLite 甚至 不 需要 安装 任何 
软件 即 可 直接 使 用 ,这 也 体现 了 SQLite 的 优势 。 

在 使 用 SQLite 之 前 ,用 户 先 要 搞 清楚 几 个 概念 。 

表 是 数据 库 中 存放 关系 数据 的 集合 ,在 一 个 数据 库 中 通常 包含 多 个 表 , 例 如 学 生 
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表 、 班 级 表 、 学 校 表 等 。 表 和 表 之 间 通 过 外 键 关 联 。 

如 果 要 操作 关系 数据 库 , 首 先 需 要 连接 到 数据 库 , 一 个 数据 库 连 接 称 为 
Connection 。 

在 连接 到 数据 库 之 后 ,需要 打开 游标 (或 称 之 为 Cursor) 通 过 Cursor 执行 SQL 
语句 ,然后 获得 执行 结果 。 

SQLite 的 驱动 内 置 在 Python 标准 库 中 ,可 以 直接 操作 SQLite 数据 库 。 

下 列 代码 实现 了 创建 连接 .创建 表 、 插 和 记录、 关闭 连接 等 数据 库 基本 操作 : 


井 导 人 SQLite 驱动 

>>> import sqlite3 

# 连 接 到 SQLite 数据 库 

# 数 据 库 文 件 是 test. db 

# 如 果 文 件 不 存在 ,会 自动 在 当前 目录 创建 
>>> conn = sqlite3. connect( 'test. db') 

# 创 建 一 个 Cursor 

>>> cursor = conn. cursor() 

# 执 行 一 条 SQL 语句 ,创建 user 表 

>>> cursor. executel( 'CREATE TABLE user (id VARCHAR(20) PRIMARY KEY, name VARCHAR(20))') 
< sqlite3. Cursor object at 0x1l0f8aa260> 
# 继 续 执行 一 条 SQL 语句 ,插入 一 条 记录 
>>> cursor. execute( 'INSERT INTO user (id, name) VALUES (\'1\', \'Michael\')') 
< sqlite3. Cursor object at 0xl10f8aa260 > 
# 通 过 rowcount 获得 插入 的 行 数 

>>> cursor. rowcount 

下 

# 关 闭 Cursor 

>>> cursor. close() 

# 提 交 事 务 

>>> conn. commit() 

# 关 闭 Connection 

>>> conn. close() 


下 列 代码 实现 了 使 用 Python 对 SQLite 进行 记录 查询 : 


>>> conn = sqlite3. connect( 'test. db') 

>>> cursor = conn. cursor() 

# 执行 查询 语句 

>>> cursor. execute( 'SELECT * FROM user WHERE id=?', ('1',)) 
< sqlite3. Cursor object at 0x10f8aa340 > 

# 获 得 查询 结果 集 

>>> values = cursor. fetchall() 

>>> values 

[('1', ‘Michael')] 
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>>> cursor.close() 
>>> conn. close() 


在 使 用 Python 的 DB-API 时 要 注意 分 辨 Connection 和 Cursor 对 象 的 区 别 , 打 
开 后 一 定 要 记得 关闭 。 

在 使 用 Cursor 对 象 执行 INSERT、UPDATE、DELETE 语句 时 ,执行 结果 由 
rowcount 返回 影响 的 行 数 。 

在 使 用 Cursor 对 象 执行 SELECT 语句 时 ,通过 fetchall() 可 以 获取 结果 集 。 结 
果 集 是 一 个 list, 每 个 元 素 都 是 一 个 tuple, 对 应 一 行 记录 。 

如 果 SQL 语句 带 有 参数 ,那么 需要 把 参数 按照 位 置 传递 给 execute() 方 法 ,有 几 
个 “?” 占 位 符 就 必须 对 应 几 个 参数 。 例 如 : 


Cursor. execute( 'SELECT * FROM user WHERE name = ? AND pwd= ?', ('abc', 'password')) 


9.3 关系 型 数据 库 


9.3.1 关系 型 数据 库 基本 操作 与 SQL 


关系 型 数据 库 是 一 个 数据 集合 ,保存 了 很 多 表 。“ 关 系 ” 就 是 指 各 个 表 之 间 的 
关联 。 

对 表 和 表 中 的 数据 进行 可 视 化 是 很 有 必要 的 ,一般 把 表 显示 为 由 行 、 列 组 成 的 表 
格 。 每 一 行 表示 一 条 记录 ,每 一 列表 示 一 个 字段 。 行 头 是 字段 名 ,其 余 行 是 数据 。 

SQL 是 维护 以 及 使 用 关系 型 数据 库 中 数据 的 一 种 标准 的 计算 机 语言 ,简单 地 说 
就 是 用 户 用 来 和 关系 型 数据 库 交 互 的 语言 。SQL 与 其 他 计算 机 语言 (例如 C、Java、 
C# 等 ) 不 同 ,SQL 是 一 种 声明 式 的 语言 , 它 经 常 使 用 一 条 单独 的 语句 来 声明 预期 的 
目标 。 需 要 注意 的 是 ,SQL 只 关注 关系 型 数据 库 系 统 ,而 不 是 整个 计算 机 系统 。 

需要 在 数据 库 上 执行 的 大 部 分 工作 都 由 SQL 语句 完成 ,例如 下 面 的 语句 从 
persons 表 中 选取 LastName 列 的 数据 : 


SELECT LastName FROM Persons 


可 以 把 SQL 分 为 两 个 部 分 , 即 数据 操作 语言 (DML) 和 数据 定义 语言 (DDL)。 
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SQL 是 用 于 执行 查询 的 语言 ,但 是 SQL 语言 也 包含 用 于 更 新 .插入 和 删除 记录 
的 语法 。 

查询 和 更 新 指令 构成 了 SQL 的 DML 部 分 。 

。 SELECT: 从 数据 库 表 中 获取 数据 。 

。 UPDATE: 更 新 数据 库 表 中 的 数据 。 

。 DELETE: 从 数据 库 表 中 删除 数据 。 

。 INSERT INTO: 向 数据 库 表 中 插入 数据 。 

SQL 的 数据 定义 语言 (DDL) 部 分 使 用 户 能 够 创建 或 删除 表格 。 用 户 也 可 以 定 
义 索引 ( 键 ) ,规定 表 之 间 的 连接 ,以 及 施加 表 间 的 约束 。 

SQL 中 最 重要 的 DDL 语句 如 下 。 

。 CREATE DATABASE: 创建 新 数据 库 。 

。 ALTER DATABASE: 修改 数据 库 。 

。 CREATE TABLE: 创建 新 表 。 

。 ALTER TABLE: 变更 (改变 ) 数 据 库 表 。 

。 DROP TABLE: 删除 表 。 

。 CREATE INDEX: 创建 索引 (搜索 键 ) 。 

。 DROP INDEX: 删除 索引 。 


9.3.2 操作 MySQL 


MySQL 是 Web 世界 中 使 用 最 广泛 的 数据 库 产品 。SQLite 的 特点 是 轻 量 级 、 可 
嵌入 ,但 它 不 能 承受 高 并 发 访问 ,适合 桌面 和 移动 应 用 。MySQL 是 为 服务 器 端 设计 
的 数据 库 ,能 承受 高 并 发 访问 ,并 且 占 用 的 内 存 远 远 超过 SQLite。 

此 外 ,MySQL 内 部 有 多 种 数据 库 引 擎 ,最 常用 的 引擎 是 支持 数据 库 事务 的 
InnoDB。 

用 户 可 以 直接 从 MySQL 官方 网 站 下 载 最 新 的 版 本 ,选择 对 应 的 平台 下 载 安 装 
文件 进行 安装 即 可 。 

在 Windows 上 安装 时 请 选择 UTF-8 编码 ,以 便 正确 地 处 理 中 文 。 

由 于 MySQL 服务 器 以 独立 的 进程 运行 ,并 通过 网 络 对 外 服务 ,所 以 需要 支持 
Python 的 MySQL 驱动 来 连接 到 MySQL 服务 器 。MySQL 官方 提供 了 mysql- 
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connector-python 驱动 ,可 使 用 pip 命令 工具 安装 : 


$ pip install mysql - connector — python 


下 面 的 代码 演示 如 何 连接 到 MySQL 服务 器 的 test 数据 库 : 

import mysql. connector 

# 打开 数据 库 连 接 

db = mysql. connector. connect (user = 'testuser', password = 'test123', host = '127.0.0.1'， 


database = 'TESTDB') 


# 使 用 cursor() 方 法 获取 操作 游标 


cursor = db. cursor() 


# 使 用 execute() 方 法 执行 SQL 语句 
Cursor. execute( "SELECT VERSION()") 


# 使 用 fetchone() 方法 获取 一 条 数据 
data = cursor. fetchone() 


print ("Database version : %s" % data) 


# 关 闭 数据 库 连 接 
db. close() 


执行 以 上 代码 的 输出 如 下 ,具体 输出 内 容 会 因 各 人 所 安装 数据 库 版 本 的 差异 而 
有 所 不 同 : 


Database version : 5.7.21 


如 果 数 据 库 连 接 存 在 ,用 户 可 以 使 用 execute() 方 法 为 数据 库 创建 表 , 如 下 所 示 
创建 EMPLOYEE 表 : 


import mysql. connector 


# 打 开 数 据 库 连 接 
db = mysql. connector. connect (user = 'testuser', password = 'test123', host = '127.0.0.1'， 
database = 'TESTDB') 


# 使 用 cursor() 方 法 获取 操作 游标 


cursor = db. cursor() 


# 如 果 数 据 表 已 经 存在 ,使 用 execute( ) 方 法 删除 表 
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cursor. execute( "DROP TABLE IF EXISTS EMPLOYEE") 


# 创建 数据 表 的 SQL 语句 

sql = """CREATE TABLE EMPLOYEE ( 
FIRST_NAME CHAR(20), 
LAST_NAME CHAR( 20), 
AGE INT, 
SEX CHAR(1), 
INCOME FLOAT )""" 


cursor, execute( sql) 
cursor. close( ) 


# 关 闭 数据 库 连 接 
db, close( ) 


以 下 实例 通过 执行 SQL INSERT 语句 向 EMPLOYEE 表 中 插入 记录 : 
import mysql. connector 


# 打 开 数 据 库 连接 
db = mysql. connector. connect (user = 'testuser', password = 'test123', host = '127.0.0.1°', 
database = 'TESTDB') 


# 使 用 cursor() 方 法 获取 操作 游标 


cursor = db. cursor() 


#SQL 插 入 语句 
sql = """INSERT INTO EMPLOYEE(FIRST NAME, 
LAST_NAME, AGE, SEX, INCOME) 
LVALUES ('Mac', ‘Mohan', 20, 'M', 2000)""" 
Ey 
# 执 行 SQL 语句 
cursor. execute( sql) 
# 提 交 到 数据 库 执行 
db. commit( ) 
except: 


# 发 生 错误 时 回 滚 
db. rollback() 


# 关 闭 数据 库 连 接 
db. close() 


上 述 代码 的 SQL 也 可 以 写成 如 下 形式 : 
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# SQL 插 入 语句 

sql = "INSERT INTO EMPLOYEE(FIRST_ NAME, 
LAST_NAME, AGE, SEX, INCOME) 
TADES ( Wo "Vo "Nd Wer Wa wy 
('Mac', 'Mohan', 20, 'M', 2000) 


以 下 代码 使 用 变量 向 SQL 语句 中 传递 参数 : 


user_id = "test123" 
password = "password" 


con. execute( 'INSERT INTO Login VALUES("%s", "$s")'% 
(user_id, password)) 


Python 查询 MySQL 使 用 fetchone() 方法 获取 单条 数据 ,使 用 fetchall() 方法 


获取 多 条 数据 。 
。 fetchone(): 该 方法 获取 下 一 个 查询 结果 集 ,结果 集 是 一 个 对 象 。 
。 fetchall() : 接收 全 部 返回 结果 行 。 
。 rowcount: 是 一 个 只 读 属性 ,返回 执行 execute() 方 法 后 影响 的 行 数 。 
例如 查询 EMPLOYEE 表 中 salary( 工 资 ) 字 段 大 于 1000 的 所 有 数据 : 


import mysql. connector 


# 打开 数据 库 连 接 
db = mysql. connector. connect (user = 'testuser', password = 'test123', host = '127.0.0.1' 


database = "TESTDB') 


# 使 用 cursor() 方 法 获取 操作 游标 


cursor = db. cursor() 


# SQL 查询 语句 
Sql = "SELECT x FROM EMPLOYEE 
WHERE INCOME > '%d'" % (1000) 

try: 

# 执 行 SQL 语句 

cursor. execute( sql) 

# 获 取 所 有 记录 列表 

results = cursor. fetchall() 


( 
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for row in results: 
fname = row[0] 
lname = row[1] 
age= row[2] 
sex = row[3] 
income = row[4] 
# 打印 结果 
print "fname= $%s,lname= $s,age= %d,sex= %s,income= %d" $% 
(fname, lname, age, sex, income) 
except: 
print "Error: unable to fecth data" 
# 关 闭 数据 库 连 接 
db. close() 


以 上 代码 的 执行 结果 如 下 : 


fname = Mac, lname = Mohan, age = 20, sex = M, income = 2000 


更 新 操作 用 于 更 新 数据 表 中 的 数据 ,以 下 实例 将 EMPLOYEE 表 中 SEX 字段 为 
的 AGE 字段 递增 1: 


import mysql. connector 


# 打 开 数 据 库 连 接 
db = mysql. connector. connect (user = 'testuser', password = 'test123', host = '127. 0.0.1'， 
database = 'TESTDB') 


## 使 用 cursor() 方 法 获取 操作 游标 


cursor = db. cursor() 


# SQL 更 新 语句 
Sql = "UPDATE EMPLOYEE SET AGE = AGE + 1 WHERE SEX='%c'" % ('M') 
EE 
# 执 行 SQL 语句 
cursor. execute( sql) 
# 提 交 到 数据 库 执行 
db. commit() 
except: 
# 发 生 错误 时 回 滚 
db. rollback() 


# 关 闭 数 据 库 连接 
db. close() 


删除 操作 用 于 删除 数据 表 中 的 数据 ,以 下 实例 演示 了 删除 数据 表 EMPLOYEE 
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中 AGE 大 于 20 的 所 有 数据 : 


import mysql. connector 


# 打开 数据 库 连 接 
db = mysql. connector. connect (user = 'testuser', password = 'test123', host = '127.0.0.1'， 
database = 'TESTDB') 


# 使 用 cursor() 方 法 获取 操作 游标 


cursor = db. cursor( ) 


# SQL 删除 语句 
sql = "DELETE FROM EMPLOYEE WHERE AGE > '% d'" % (20) 


try: 
# 执 行 SQL 语句 
cursor. execute( sql) 
# 提 交 修 改 
db. commit( ) 

except: 
# 发 生 错误 时 回 滚 
db.rollback() 


# 关 闭 连接 
db. close() 


事务 机 制 可 以 确保 数据 的 一 致 性 。 

事务 应 该 具有 原子 性 一致 性 、 隔 离 性 ,持久 性 ,这 4 个 属性 通常 称 为 ACID 特性 。 

。 原子 性 (Atomicity) : 一 个 事务 是 一 个 不 可 分 割 的 工作 单位 ,事务 中 包括 的 诸 
操作 要 么 都 做 ,要 么 都 不 做 。 

。 一致 性 (Consistency) : 事务 必须 使 数据 库 从 一 个 一 致 性 状态 变 到 另 一 个 一 致 
性 状态 。 一 致 性 与 原子 性 是 密切 相关 的 。 

。 隔离 性 (Isolation) : 一 个 事务 的 执行 不 能 被 其 他 事务 干扰 , 即 一 个 事务 内 部 的 
操作 及 使 用 的 数据 对 并 发 的 其 他 事务 是 隔离 的 ,并 发 执行 的 各 个 事务 之 间 不 
能 互相 干扰 。 

。 持久 性 (Durability): 持续 性 也 称 永久 性 (Permanence), 指 一 个 事务 一 旦 提 
交 , 它 对 数据 库 中 数据 的 改变 就 应 该 是 永久 性 的 , 接 下 来 的 其 他 操作 或 故障 
不 应 该 对 其 有 任何 影 

Python DB API 2. 0 的 事务 提供 了 commit() 和 rollback() 两 个 方法 : 
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# SQL 删除 记录 语句 
sql = "DELETE FROM EMPLOYEE WHERE AGE > '%d'" % (20) 


# 执 行 SQL 语句 
cursor. execute( sql) 
# 向 数据 库 提交 
db. commit( ) 

except: 
# 发 生 错误 时 回 滚 
db.rollback() 


对 于 支持 事务 的 数据 库 ,在 Python 数据 库 编程 中 , 当 游标 建立 之 时 就 自动 开始 
了 一 个 隐形 的 数据 库 事务 。 

commit() 方 法 执行 所 有 更 新 操作 ,rollback() 方 法 回 滚 当前 游标 的 所 有 操作 。 每 
一 个 方法 都 开始 了 一 个 新 的 事务 。 


9.4 非 关系 型 数据 库 


9.4.1 NoSQL 介绍 


NoSQL 指 的 是 非 关 系 型 数据 库 。NoSQL 有 时 也 是 Not Only SQL 的 缩写 ,是 对 
不 同 于 传统 关系 型 数据 库 的 数据 库 管理 系统 的 统称 。 

NoSQL 通常 用 于 超大 规模 数据 的 存储 。 这 类 数据 存储 不 需要 固定 的 模式 ,无 须 
多 余 操 作 就 可 以 横向 扩展 。 现 在 用 户 通过 第 三 方 平台 (例如 Google、Facebook 等 ) 可 
以 很 容易 地 访问 和 抓 取 数 据 。 用 户 的 个 人 信息 、 社 交 网 络 、 地 理 位 置 、 用 户 生 成 的 数 
据 和 用 户 操作 日 志 已 经 急剧 增加 ,如 果 要 对 这 些 数据 进行 存储 和 挖掘 ,SQL 数据 库 
已 经 不 适合 , NoSQL 数据 库 却 能 很 好 地 处 理 这 些 大 数据 。 

由 于 NoSQL 出 现 的 时 间 不 长 ,目前 对 NoSQL 并 没有 较为 清晰 和 统一 的 严谨 定 
义 ,但 是 其 中 的 一 些 主要 特征 得 到 了 业内 人 士 的 公认 : 其 一 ,NoSQL 数据 库 不 使 用 
结构 化 查询 语言 (SQL) ,至 少 没有 使 用 广义 上 标准 的 SQL; 其 二 ,所 有 的 NoSQL 数 
据 库 目前 都 是 开源 项 目 , 这 也 是 其 获得 快速 发 展 的 最 大 原因 ; 其 三 ,大 多 数 NoSQL 数 
据 库 都 是 面向 集群 或 以 集群 为 目的 进行 开发 的 ,因此 更 适用 于 大 规模 数据 存储 系统 。 

与 主流 关系 型 数据 库 采 用 基于 行 的 存储 方式 不 同 , 当 前 的 NoSQL 呈现 出 多 元 化 
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的 存储 方式 发 展 状况 ,大 体 上 分 为 4 类 , 即 面向 文档 存储 (Document-Oriented) 、 列 存 
储 (Column-Family)、 图 形 关系 存储 (Graph-Oriented) 和 键 值 存储 (Key-Value) 。 

(1) 面向 文档 存储 : 面向 文档 存储 将 数据 以 文档 的 形式 储存 。 每 个 文档 具有 自 
述 性 ,在 语义 上 是 自 包含 的 数据 单元 ,拥有 分 层 的 树 状 结构 ,其 格式 可 以 使 用 可 扩展 
标记 语言 (XML) .JavaScript 对 象 标记 (JSON) ,二进制 序列 化 文档 格式 (BSON) 等 。 
文档 由 数据 项 组 成 ,每 个 数据 项 都 有 一 个 名 称 及 与 其 对 应 的 值 ,该 值 既 可 以 是 简单 的 
数据 类 型 ,例如 纯 量 值 或 字符 串 等 ,也 可 以 是 复杂 的 数据 类 型 ,例如 数组 集合 对象， 
甚至 可 以 是 另 一 文档 。 面 向 文档 存储 的 最 小 单位 是 文档 ,各 文档 的 结构 可 以 不 同 , 因 
此 是 以 模式 自由 (schema-free) 方 式 组 织 的 。 

(2) 列 存储 : 列 存储 将 数据 储存 在 列 族 中 , 列 族 中 的 行 把 许多 列 数 据 与 本 行 的 行 
键 关联 ,一 个 列 族 单独 存放 ,保存 经 常 被 一 起 查询 的 相关 数据 。 由 于 查询 中 的 选择 规 
则 通过 列 来 定义 ,因此 整个 数据 库 是 自动 索引 化 的 。 每 个 字段 的 数据 聚集 存储 ,在 查 
询 少量 字段 的 时 候 能 大 大 减少 读 取 的 数据 量 。 另 外 ,由 于 列 存储 是 一 个 字段 的 数据 
聚集 存储 ,因此 更 容易 为 其 设计 更 好 的 压缩 /解压 缩 算 法 。 

(3) 图 形 关系 存储 : 图 形 关系 存储 将 数据 以 图 的 方式 储存 。 实 体会 被 作为 结 点 
(Node) ,具有 属性 ,而 实体 之 间 的 关系 作为 边 (Edge) ,具有 方向 性 和 属性 。 在 用 结 点 
和 边 建 立 好 图 之 后 就 可 以 用 多 种 方式 进行 查询 了 。 由 于 在 遍历 连接 和 关系 时 速度 很 
快 ,所 以 图 形 关系 存储 适合 于 表达 需要 强调 实体 与 实体 之 间 关 系 的 数据 。 

(4) 键 值 存储 : 键 值 存储 类 似 一 张 哈 希 表 , 可 以 通过 主键 进行 数据 的 增 / 删 / 查 / 
改 。 该 存储 方式 最 大 的 特点 是 简单 ,每 个 键 对 应 的 值 仅 代 表 一 块 数据 ,无 须 考虑 其 结 
构 化 信息 。 

表 9.2 展示 了 NoSQL 的 主要 存储 方式 及 其 特点 。 


表 9.2 NoSQL 的 不 同 存储 方式 的 特点 


存储 方式 描述 适 用 | 数据 量 级 | 代表 实现 
面向 文档 | 、 非 顷 榴 化 \ 平 结 

以 文档 方式 存储 非 结构 化 数据 ee TB~PB | MongoDB 
列 存储 | 将 数据 存储 在 列 族 中 日 志 TB~PB | Cassandra 
图 形 关 系 | 以 结 点 和 边 的 网 络 结构 存 储 实体 和 | 关系 性 强 的 

存储 关系 数据 GB~TB Neo4j 

键 值 存储 “| 以 哈 希 表 结构 存储 键 值 对 人 置 文 | GB~TB | Redis 
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9.4.2 MongoDB 


MongoDB 是 一 个 高 性 能 、 高 可 用 性 、 易 于 扩展 的 文档 型 数据 库 。 在 
MongoDB 中 ,数据 的 概念 组 织 形式 如 下 : 每 个 实例 包含 若干 “数据 库 ”， 
每 个 数据 库 包 含 若干 “集合 ”(collection) ,在 集合 中 又 可 插入 若干 条 文档 。 其 概念 与 
关系 型 数据 库 概念 的 对 应 关系 如 表 9. 3 所 示 。 


表 9.3 MongoDB 中 各 概念 与 关系 型 数据 库 中 概念 的 对 应 关系 


MongoDB 关系 型 数据 库 
MongoDB 实例 数据 库 实例 
数据 库 模式 
集合 表 
文档 行 
数据 项 字段 


在 MongoDB 中 ,数据 是 以 弹性 模式 (flexible schema) 进 行 组 织 的 ,这 也 是 其 与 结构 
化 数据 库 ( 以 表格 的 行 / 列 结构 化 形式 存储 和 查询 数据 ) 的 最 大 不 同 之 处 。 在 结构 化 数 
据 库 中 必须 在 存储 数据 之 前 明确 确定 表格 的 模式 结构 ,而 MongoDB 的 集合 并 不 要 求 事 
先 定义 文档 的 结构 。 这 种 弹性 模式 使 得 在 文档 和 实体 或 对 象 之 间 进 行 映 射 更 为 方便 。 

MongoDB 以 JSON 风格 的 语法 格式 在 文档 中 表达 数据 ,使 用 JSON 的 变种 -一 
BSON 作为 内 部 存储 的 格式 ,针对 MongoDB 的 操作 都 使 用 JSON 风格 的 语法 ,客户 
端 提 交 或 接收 的 数据 也 都 采用 JSON 格式 的 形式 来 展现 : 


{ "ID": "0001", "name": "ZhangSan", "age": 25 } 


其 中 ,"ID"、"name"、"age" 为 文档 的 键 ,"0001"、"ZhangSan" 、25 分 别 为 这 3 个 键 
所 对 应 的 值 。 可 以 看 到 ,"age" 键 所 对 应 的 值 为 数值 型 对 象 ,其 他 值 为 字符 串 型 。 此 
外 ,文档 的 值 可 以 是 更 加 复杂 的 形式 .例如 数组 或 内 由 的 文档 。 

与 标准 SQL 不 同 ,在 MongoDB 中 采用 find 关键 字 进 行 数据 的 查询 检索 ,查询 的 
结果 是 一 个 集合 中 文档 的 子 集 ,其 范围 从 0 个 文档 到 整个 集合 。MongoDB 所 支持 的 
find( 查 询 ) 语 句 非常 强大 ,其 语法 类 似 于 面向 对 象 的 查询 语言 ,几乎 可 以 实现 类 似 关 
系数 据 库 单 表 查询 的 绝 大 部 分 功能 ,而 且 支 持 对 数据 建立 索引 。find 语句 可 以 以 参 
数 表 明 查 询 的 条 件 ,其 形式 也 是 一 个 JSON 文档 ,车 不 指定 查询 条 件 ,默认 返回 整个 
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/* 返 回 整 个 集合 的 文档 x / 
db. collection. find(); 


若 要 查询 姓名 为 "ZhangSan" 的 用 户 文档 ,可 以 指定 find 语句 的 首 个 参数 (以 
JSON 对 象 表示 ): 

/* 返 回 姓名 为 "ZhangSan" 的 文档 * / 

db. users. find( {"name" : "ZhangSan" }); 

在 条 件 参数 中 通过 多 个 键 值 对 的 组 合 可 以 完成 多 条 件 检索 ,效果 如 同 SQL 中 的 
AND 关键 字 , 例 如 要 查询 姓名 为 "ZhangSan" 且 性 别 为 "Male" 的 文档 : 

/* 返回 姓名 为 "ZhangSan" 且 性 别 为 "Male" 的 文档 */ 

db. users. find( {"name" : "ZhangSan", "gender": "Male"}); 

若 要 求 返回 指定 的 键 值 对 而 不 是 整个 文档 ,可 通过 find 语句 的 第 二 个 参数 进行 指 
定 ,该 参数 同样 是 JSON 文档 。 例 如 仅 需 要 返回 姓名 为 "ZhangSan" 的 用 户 的 地 址 , 则 : 


/* 返 回 姓名 为 "zhangSan" 的 用 户 的 地 址 信息 * / 
db. users. find( {"name" : "ZhangSan" }, {"address": 1}); 


在 第 二 个 参数 中 ,1 表示 需要 返回 该 键 值 对 ,0 表示 去 除 结果 中 的 该 键 值 对 。 
若 要 求 查 询 的 条 件 在 一 系列 枚 举 值 的 范围 内 ,可 使 用 条 件 操 作 符 $in。 例 如 需 
要 查询 年 龄 为 25 .30 或 35 岁 的 用 户 : 


/* 返 回 年 龄 为 25、30 或 35 岁 的 用 户 信息 * / 
db. users. find({"age": { $ in: [25,30,35]}}); 


若 要 对 查询 结果 进行 排序 ,可 以 使 用 sort 语句 ,并 可 以 在 其 参数 中 指定 要 排序 的 
键 ,其 值 表明 排序 的 方向 ,1 表示 升序 ,一 1 表示 降序 , 若 指定 了 多 个 键 , 则 按照 指定 的 
顺序 逐个 排序 。 例 如 要 对 用 户 以 年 龄 进行 升序 排序 : 


/* 返 回 所 有 用 户 ,并 对 结果 按 年 龄 进行 升序 排序 * / 
db.users. find(). sort({"age" : 1}); 
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9.4.3 PyMongo: MongoDB 和 Python 
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1. 安装 PyMongo 视频 主公 


Python 要 连接 MongoDB 需要 MongoDB 驱动 ,这 里 使 用 PyMongo 驱动 来 连接 。 
用 户 可 以 使 用 pip 进行 PyMongo 的 安装 : 


$ python —m pip install pymongo 
用 户 也 可 以 指定 安装 的 版 本 : 

$ python —m pip install pymongo =3.5.1 

更 新 PyMongo 的 命令 如 下 : 

$ python —m pip install -- upgrade pymongo 

接 下 来 可 以 导入 pymongo 模块 ,代码 如 下 : 

import pymongo 

执行 以 上 代码 ,如果 没 有 出 现 错误 ,表示 安装 成 功 。 
2. 创建 数据 库 


创建 数据 库 需 要 使 用 MongoClient 对 象 ,并 且 指 定 连 接 的 URL 地 址 和 要 创建 的 
数据 库 名 。 
例如 下 例 中 创建 数据 库 runoobdb: 


import pymongo 

myclient = pymongo. MongoClient ("mongodb://localhost:27017/") 

mydb = myclient["runoobdb"] 

注意 : 在 MongoDB 中 ,数据 库 只 有 在 内 容 插入 之 后 才 会 创建 。 也 就 是 说 ,在 数 
据 库 创建 后 要 创建 集合 (数据 表 ) 并 插入 一 个 文档 (记录 ) ,这样 数 据 库 才 会 真正 创建 。 

可 以 读 取 MongoDB 中 的 所 有 数据 库 , 并 判断 指定 的 数据 库 是 否 存 在 : 
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import pymongo 
myclient = pymongo. MongoClient( ‘mongodb://localhost:27017/') 
dblist = myclient. database names() 
if "runoobdb" in dblist: 
print(" 数 据 库 已 存在 !") 
MongoDB 中 的 集合 类 似 SQL 中 的 表 。MongoDB 使 用 数据 库 对 象 来 创建 集合 ， 
实例 如 下 : 


import pymongo 


myclient = pymongo. MongoClient ("mongodb://localhost:27017/") 
mydb = myclient["runoobdb" ] 


mycol = mydb[ "sites"] 


注意 : 在 MongoDB 中 ,集合 只 有 在 内 容 插入 之 后 才 会 创建 。 也 就 是 说 ,在 创建 
集合 (数据 表 ) 后 要 再 插入 一 个 文档 (记录 ), 集 合 才 会 真正 创建 。 
可 以 读 取 MongoDB 数据 库 中 的 所 有 集合 ,并 判断 指定 的 集合 是 否 存 在 : 


import pymongo 

myclient = pymongo. MongoClient( ‘mongodb: //localhost:27017/') 

mydb = myclient[ 'runoobdb'] 

collist = mydb. collection_names() 

if "sites" in collist: # 判 断 sites 集合 是 否 存在 

print(" 集 合 已 存在 !") 

MongoDB 中 的 一 个 文档 类 似 SQL 表 中 的 一 条 记录 。 

在 集合 中 插入 文档 使 用 insert_one() 方 法 ,该 方法 的 第 一 个 参数 是 字典 name- 
value 对 。 


以 下 实例 向 sites 集合 中 插入 文档 : 


import pymongo 


myclient = pymongo. MongoClient ("mongodb://localhost:27017/") 
mydb = myclient["runoobdb"] 
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mycol = mydb[ "sites"] 
mydict = { "name" : "RUNOOB", "alexa": "10000", "url": "https://www. runoob. com" } 
x= mycol. insert_one(mydict) 


print(x) 
print(x) 


insert_one() 方 法 返回 InsertOneResult 对 象 ,该 对 象 包含 inserted_id 属性 , 它 是 
插入 文档 的 id 值 : 


import pymongo 

myclient = pymongo. MongoClient( 'mongodb: //localhost:27017/') 

mydb = myclient[ 'runoobdb'] 

ycol = mydb[ "sites"] 

mydict = { "name": "Google", "alexa": "1", "url": "https://www. google. com" } 


x= mycol. insert_one(mydict) 

print(x. inserted_id) 

用 户 可 以 使 用 find_one() 方 法 来 查询 集合 中 的 一 条 数据 。 例 如 查询 sites 文档 中 
的 第 一 条 数据 : 

import pymongo 

myclient = pymongo. MongoClient ("mongodb://localhost:27017/") 

mydb = myclient["runoobdb"] 

mycol = mydb[ "sites"] 

x= mycol. find_one() 


print(x) 


find() 方 法 可 以 查询 集合 中 的 所 有 数据 ,类 似 SQL 中 的 SELECT * 操作 。 
以 下 实例 查找 sites 集合 中 的 所 有 数据 : 

import pymongo 

myclient = pymongo. MongoClient ("mongodb://localhost:27017/") 


mydb = myclient["runoobdb"] 
mycol = mydb[ "sites"] 
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for x in mycol. find( ): 
print(x) 


用 户 可 以 在 find() 中 设置 参数 来 过 滤 数 据 。 以 下 实例 查找 address 字段 为 "Park 
Lane 38" 的 数据 : 


import pymongo 
myclient = pymongo. MongoClient ("mongodb://localhost:27017/") 
mydb = myclient["runoobdb"] 
mycol = mydb[ "sites"] 
myquery = { "name" : "RUNOOB" } 
mydoc = mycol. find(myquery) 
for x in mydoc: 
print(x) 


x= mycol. find one() 


print(x) 


在 查询 的 条 件 语句 中 还 可 以 使 用 修饰 符 。 以 下 实例 用 于 读 取 name 字段 中 第 一 
个 字母 的 ASCII 值 大 于 "H" 的 数据 ,大 于 的 修饰 符 条 件 为 {" $ gt":"H"}: 


import pymongo 

myclient = pymongo. MongoClient( "mongodb://localhost:27017/") 
mydb = myclient["runoobdb"] 

mycol = mydb["sites"] 

myquery= { "name": { "$gt": "H" } } 

mydoc = mycol. find(myquery) 

for x in mydoc: 


print(x) 


用 户 可 以 在 MongoDB 中 使 用 update_one() 方 法 修改 文档 中 的 记录 。 该 方法 的 
第 一 个 参数 为 查询 的 条 件 , 第 二 个 参数 为 要 修改 的 字段 。 如 果 查 找到 的 匹配 数据 超 
过 一 条 , 则 只 会 修改 第 一 条 。 
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以 下 实例 将 alexa 字段 的 值 10000 改 为 12345: 


import pymongo 

myclient = pymongo. MongoClient ("mongodb://localhost:27017/") 
mydb = myclient["runoobdb"] 

mycol = mydb[ "sites"] 


myquery= { "alexa": "10000" } 
newvalues = { " $ set": { "alexa": "12345" } } 


mycol. update_one(myquery, newvalues) 


# 输 出 修改 后 的 "sites" 集合 
for x in mycol, find( ): 
print(x) 
update_one() 方 法 只 能 修改 匹配 到 的 第 一 条 记录 ,如 果 要 修改 匹配 到 的 所 有 记 
录 , 可 以 使 用 update_many()。 
以 下 实例 将 查找 所 有 以 下 开头 的 name 字段 ,并 将 匹配 到 的 所 有 记录 的 alexa 字 
段 修改 为 123 


import pymongo 

myclient = pymongo. MongoClient( "mongodb://localhost:27017/") 
mydb = myclient["runoobdb"] 

mycol = mydb[ "sites"] 


myquery= { "name": { " $ regex": "^F" } } 
newvalues = { " $ set": { "alexa": "123" } } 


x= mycol. update_many(myquery, newvalues) 


print(x. modified_count, "文档 已 修改 ") 


用 户 可 以 使 用 delete_one() 方 法 来 删除 一 个 文档 ,该 方法 的 第 一 个 参数 为 查询 对 
象 ,指定 要 删除 哪些 数据 。 以 下 实例 删除 name 字段 值 为 "Taobao" 的 文档 : 


import pymongo 

myclient = pymongo. MongoClient("mongodb://localhost:27017/") 
mydb = myclient["runoobdb"] 

mycol = mydb["sites"] 
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myquery= { "name" : "Taobao" } 
mycol. delete_one(myquery) 
# 删除 后 输出 


for x in mycol. find() : 
print(x) 


用 户 可 以 使 用 delete_many() 方 法 来 删除 多 个 文档 ,该 方法 的 第 一 个 参数 为 查询 
对 象 ,指定 要 删除 哪些 数据 。 以 下 实例 删除 所 有 name 字段 中 以 下 开头 的 文档 : 

import pymongo 

myclient = pymongo. MongoClient( "mongodb://localhost:27017/") 

mydb = myclient["runoobdb" ] 

mycol = mydb[ "sites"] 

myquery= { "name": {" $ regex": "^F"} } 

x= mycol. delete many(myquery) 


print(x. deleted_count, "个 文档 已 删除 ") 


习题 


1. 关系 型 数据 库 与 非 关 系 型 数据 库 有 何 异同 ? 

2. 安装 MySQL, 并 创建 数据 库 MyDB, 使 用 Python 编程 在 该 数据 库 中 创建 表 
Users, 它 包含 userid、username、password、gender 和 age 5 个 字段 。 

3. 使 用 Python 编程 在 Users 表 中 插入 如 下 数据 : 


userid username password gender age 
5013 mikeage 4303kma male 32 
5014 lineefe fmeiw12 female 48 
5015 onaverrk inv8ese male 20 


4. 使 用 Python 编程 从 Users 表 中 查询 出 年 龄 大 于 30 岁 的 男性 用 户 。 


机 器 学 习 一 一 有 监督 学 习 


本 章 学 习 目 标 : 

。 了 解 机 器 学 习 的 概念 

。 了 解 有 监督 和 无 监督 机 器 学 习 原 理 

。 了 解 有 监督 机 器 学 习 相 关 算 法 并 进行 运用 


10.1 机 器 学 习 简 介 


机 器 学 习 (Machine Learning,ML) 是 一 门 多 领域 交叉 学 科 ,涉及 概率 论 .统计 学 、 
通 近 论 . 凸 分 析 、 算 法 复杂 度 理论 等 多 门 学 科 , 专 门 研究 计算 机 怎样 模拟 或 实现 人 类 
的 学 习 行为 ,以 获取 新 的 知识 或 技能 ,重新 组 织 已 有 的 知识 结构 使 之 不 断 改善 自身 的 
性 能 。 它 是 人 工 智 能 的 核心 ,是 使 计算 机 具有 智能 的 根本 途径 。 它 的 应 用 已 遍及 人 
工 智能 的 各 个 分 支 , 例 如 专家 系统 等 领域 。 机 器 学 习 有 很 多 学 习 方法 ,例如 监督 学 习 
(supervised learning)、 无 监督 学 习 (unsupervised learning)、 半 监督 学 习 (semi- 
supervised learning) ,强化 学 习 (reinforcement learning) 等 ,本 章 主要 介绍 有 监督 学 
习 , 本 书 第 11 章 重点 介绍 无 监督 学 习 。 
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1. 有 监督 学 习 


有 监督 学 习 流 程 如 图 10. 1 所 示 ,输入 样本 (数据 ) 是 训练 样本 ,每 组 训练 样本 有 
个 明确 的 标识 或 结果 。 在 建立 预测 模型 的 时 候 , 监 督 式 学 习 建 立 一 个 学 习 过 程 ,将 预 
测 结果 与 “训练 数据 ?的 实际 结果 进行 比较 ,不 断 地 调整 预测 模型 ,直到 模型 的 预测 结 
果 达 到 一 个 预期 的 准确 率 。 它 常用 于 回归 问题 与 分 类 问题 。 


2. 无 监督 学 习 输入 样本 X 


在 非 监督 式 学 习 中 ,数据 并 不 被 特别 标 | 
识 , 学 习 模 型 是 为 了 推断 出 数据 的 一 些 内 在 结 机 器 学 习 方法 
构 。 其 常见 的 应 用 场景 包括 关联 规则 的 学 习 | 
以 及 聚 类 等 。 它 可 以 用 来 解决 鸡尾酒 会 问题 ， (daa 片 半 估计 函数 K 寺 玉 测 舍 计 值 
即 提取 混杂 在 一 起 的 音频 ,也 可 以 结合 聚 类 算 
法 来 建立 图 片 的 3D 模型 等 。 


图 10.1 有 监督 学 习 


10.2 Python 机 器 学 习 库 Scikit-learn 


Scikit-learn 是 一 套 基 于 Python 语言 的 机 器 学 习 库 ,该 库 建 立 在 NumPy SciPy 
和 Matplotlib 基础 之 上 ,提供 了 一 整套 简单 .高 效 的 数据 挖掘 和 数据 分 析 工 具 。 
Scikit-learn 发 布 于 2007 年 ,已 经 发 展 更 新 了 超过 10 年 时 间 , 目 前 已 经 成 为 Python 
中 最 重要 、 最 常用 的 机 器 学 习 工 具 , 集 成 了 大 量 成 熟 的 机 器 学 习 算 法 。 图 10. 2 是 官 
方 提供 的 Scikit-learn 库 结 构 及 算法 选择 流程 图 。 由 于 Scikit-learn 模型 和 算法 众多 ， 
如 何 选择 合适 的 模型 和 算法 通常 是 令 用 户头 疼 的 事情 。 该 图 中 是 一 些 大 致 的 指导 ， 
圆圈 内 是 判断 条 件 , 方 框 内 是 可 以 选择 的 算法 。 用 户 可 以 根据 自己 的 数据 特征 和 任 
务 目标 找到 一 条 合适 的 操作 路 线 ,逐步 尝试 。 

由 图 10. 2 可 见 ,Scikit-learn 库 中 主要 包含 分 类 、 回 归 、 聚 类 和 降 维 4 类 算法 。 

分 类 是 指 识别 给 定 对 象 的 所 属 类 别 , 其 属于 监督 学 习 的 范畴 ,最 常见 的 应 用 场景 
包括 垃圾 邮件 检测 和 图 像 识别 等 。 目 前 ,Scikit-learn 已 经 实现 的 算法 包括 支持 向 量 
机 (SVM) .最 近邻 .逻辑 回归 、 随 机 森林 、 决 策 树 以 及 多 层 感知 器 (MLP) 神 经 网 络 等 。 
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需要 指出 的 是 ,由 于 Scikit-learn 本 身 不 支持 深度 学 习 , 也 不 支持 GPU 加 速 , 所 
以 这 里 对 于 MLP 的 实现 并 不 适合 处 理 大 规模 问题 ,有 相关 需求 的 读者 可 以 查看 同样 
对 Python 有 良好 支持 的 Keras 和 Theano 等 框架 。 

回归 是 指 预测 与 给 定 对 象 相关 联 的 连续 值 属 性 ,其 最 常见 的 应 用 场景 包括 预测 
药物 反应 和 预测 股票 价格 等 。 目 前 ,Scikit-learn 已 经 实现 的 算法 包括 支持 向 量 回归 
(SVR)、 疹 回归 、Lasso 回归 、 弹 性 网 络 (Elastic Net) ,最 小 角 回归 (LARS )、 贝 叶 斯 回 
归 以 及 各 种 不 同 的 鲁 棒 回 归 算 法 等 。 可 以 看 到 ,这 里 实现 的 回归 算法 几乎 涵盖 了 所 
有 开发 者 的 需求 范围 ,而 且 更 重要 的 是 ,Scikit-learn 还 针对 每 种 算法 提供 了 简单 明了 
的 用 例 参考 。 

聚 类 是 指 自动 识别 具有 相似 属性 的 给 定 对 象 ,并 将 其 分 组 为 集合 ,属于 无 监督 学 
习 的 范畴 ,最 常见 的 应 用 场景 包括 顾客 细 分 和 试验 结果 分 组 。 目 前 ,Scikit-learn 已 经 
实现 的 算法 包括 K-Means 聚 类 、 谱 聚 类 ,均值 偏 移 ,分 层 聚 类 .DBSCAN 聚 类 等 。 

数据 降 维 是 指使 用 主 成 分 分 析 (PCA) , 非 负 和 矩阵 分 解 (NMF) 或 特征 选择 等 降 维 
技术 来 减少 要 考虑 的 随机 变量 的 个 数 ,其 主要 应 用 场景 包括 可 视 化 处 理 和 效率 提升 。 

此 外 ,Scikit-learn 还 具有 模型 选择 和 数据 预 处 理 的 相关 功能 。 

模型 选择 是 指 对 于 给 定 参 数 和 模型 的 比较 验证 和 选择 ,其 主要 目的 是 通过 参数 
调整 来 提升 精度 。 目 前 ,Scikit-learn 实现 的 模块 包括 格 点 搜索 .交叉 验证 和 各 种 针对 
预测 误差 评估 的 度量 函数 。 

数据 预 处 理 是 指数 据 的 特征 提取 和 归 一 化 , 它 是 机 器 学 习 过 程 中 的 第 一 个 也 是 
最 重要 的 一 个 环节 。 这 里 归 一 化 是 指 将 输入 数据 转换 为 具有 零 均 值 和 单位 权 方差 的 
新 变量 ,但 因为 大 多 数 时 候 都 做 不 到 精确 到 零 ,所 以 会 设置 一 个 可 接受 的 范围 ,一 般 要 
求 落 在 0 一 1。 特 征 提 取 是 指 将 文本 或 图 像 数 据 转 换 为 可 用 于 机 器 学 习 的 数字 变量 。 

总 的 来 说 ,Scikit-learn 实现 了 一 整套 用 于 数据 降 维 、 模 型 选择 .特征 提取 和 归 一 
化 的 完整 算法 /模块 ,虽然 缺少 按 步骤 操作 的 参考 教程 ,但 Scikit-learn 针对 每 个 算法 
和 模块 提供 了 丰富 的 参考 样 例 和 详细 的 说 明文 档 。 


10.3 有 监督 学 习 
在 机 器 学 习 中 ,有 监督 学 习 的 任务 重点 在 于 根据 已 有 经 验 知识 对 未 知 样本 的 目 


标 / 标 记 进行 预测 。 根 据 目标 预测 变量 类 型 的 不 同 ,监督 学 习 任务 大 体 上 分 为 回归 预 
测 和 分 类 学 习 。 本 章 涉及 的 机 器 学 习 算 法 如 图 10. 3 所 示 。 
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线性 回归 Logistic 回 归 贝 叶 斯 分 类 器 | | 支持 向 量 机 KNN 决策 树 


图 10.3 本 章 涉 及 的 机 器 学 习 算法 
有 监督 学 习 的 基本 架构 和 流程 如 下 : 首先 准备 训练 数据 ,这 些 数据 可 以 是 文本 
数据 ,图像 数据 音频 数据 等 ; 然后 抽取 所 需要 的 特征 ,形成 特征 向 量 (Feature 
Vectors); 接着 把 这 些 特征 向 量 以 及 对 应 的 目标 (Labels) 一 起 导入 机 器 学 习 算法 模 
型 中 ,训练 出 一 个 预测 模型 ; 然后 采用 同样 的 特征 抽取 方法 作用 于 新 数据 ,得 到 用 于 测 
试 的 特征 向 量 ; 最 后 使 用 预测 模型 对 这 些 待 测试 的 特征 向 量 进行 预测 并 得 到 结果 。 


10.3.1 线性 回归 


要 求实 际 输出 与 线性 方程 预测 的 输出 的 残 差 平方 和 最 小 化 。 这 
也 称 为 最 小 二 乘法 。 下 面 用 代码 进行 演示 。 
(1) 导入 数据 。 


import numpy as np 
发 二 1 
| 
with open(filename, 'r') as f: 
for line in f.readlines() : 
xt, yt= [float(i) for i in line. split(', ')] 
X.append(xt) 
Y.append(Yt) 


(2) 在 建立 机 器 学 习 模型 时 需要 用 一 种 方法 来 验证 模型 ,检查 模型 是 否 达到 一 
定 的 满意 度 。 为 了 实现 这 个 方法 ,把 数据 分 成 两 组 一 一 训练 集 (training dataset) 和 测 
试 集 (testing dataset) 。 训 练 集 用 来 建立 模型 ,测试 集 用 来 验证 模型 对 未 知 数据 的 学 
习 效果 。 因 此 , 先 把 数据 分 为 训练 集 和 测试 集 。 


# 切 分 训练 和 测试 数据 
num training= int(0.8 * len(X) ) 
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num test= len(X) — num training 


# 训练 数据 

XxX train= np.array(X[ :num_training]). reshape( (num training,1)) 
ytrain= np.array(y[ :num_training]) 

# 测试 数据 

X_test= np.array(X[num training: ]). reshape( (num test, 1)) 
Y_test = np.array(Y[num_training:]) 


在 这 里 ,把 80% 的 数据 作为 训练 数据 集 ,其 余 的 20% 作 为 测试 数据 集 。 
(3) 现在 来 创建 一 个 线性 回归 对 象 。 


# 创 建 一 个 线性 回归 对 象 

from sklearn import linear model 

linear regressor = linear model. LinearRegression() 
# 用 训练 数据 训练 模型 


linear _ regressor. fit(X train, y_train) 


(4) 用 训练 好 的 模型 对 测试 集 上 的 数据 进行 预测 。 


# 预 测 输出 结果 
Y_test_pred = linear regressor.predict(X test) 


(5) 对 预测 数据 进行 可 视 化 展示 。 


# 可 视 化 展示 

import matplotlib. pyplot as plt 

plt. scatter(X test, y_test, color= 'green') 

plt. plot(X test, y test_ pred, color = 'black', linewidth = 4) 
plt. xticks(()) 

plt. yticks(()) 

plt. show() 


展示 结果 如 图 10.4 所 示 。 
(6) 对 构建 的 模型 进行 评价 。 
评价 一 个 回归 模型 的 拟 合 效果 主要 有 以 下 几 
个 指标 。 
。 平均 绝对 误差 (mean absoult error): 这 是 
给 定数 据 集 的 所 有 数据 点 的 误差 的 平方 
的 平均 值 。 


图 10.4 代码 输出 图 
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。 均 方 误差 (mean squared error) : 这 是 给 定数 据 集 的 所 有 数据 点 的 误差 的 平方 
的 平均 值 。 

。 中 位 数 绝 对 误差 (median absoult error) : 这 是 给 定数 据 集 的 所 有 数据 点 的 误 
差 的 中 位 数 。 这 个 指标 的 主要 优点 是 可 以 消除 异常 值 的 和 干扰。 测试 数据 集 
中 的 单个 坏 点 不 会 影响 整个 误差 指标 ,均值 误差 指标 会 受到 异常 值 的 干扰 。 

。 解释 方差 得 分 (explained variance score) : 这 个 分 数 用 于 衡量 模型 对 数据 集 波 
动 的 解释 能 力 。 如 果 得 分 为 1.0, 那 么 表明 模型 是 完美 的 。 

。R 方 得 分 (R2 score) : 这 个 指标 读 作 “R 方 ”, 是 指 确定 性 相关 系数 ,用 于 衡量 
模型 对 位 置 样本 预测 的 效果 。 其 最 好 的 得 分 是 1.0, 得 分 值 也 可 以 是 负数 。 

下 面 用 代码 来 计算 这 几 个 指标 。 


import sklearn. metrics as sm 

print ("Mean absolute error = ", round(sm.mean absolute error(y test, y_ test_ pred), 2)) 
Print ("Mean squared error = ", round(sm.mean squared error(y test, y test pred), 2)) 
print ("Median absolute error = ", round( sm. median absolute error(y test, y_test_pred), 2)) 
print ("Explain variance score = "，round ( sm. explained_ variance_score(y_test, y_test_ 


pred), 2)) 
Print ("R2 score=", round(sm.r2_score(y_test, y_test_pred), 2)) 


得 到 的 结果 如 下 : 


Mean absolute error = 0.54 
Mean squared error = 0.38 
Median absolute error = 0.54 
Explain variance score= 0.68 
R2 score= 0.68 


以 上 是 一 个 完整 的 线性 回归 模型 的 建立 步骤 。 最 后 ,对 线性 回归 做 一 个 简单 的 
总 结 : 线性 回归 器 是 最 简单 、 易 用 的 回归 模型 。 正 因为 其 对 特征 和 回归 目标 之 间 的 
线性 假设 ,从 某 种 程度 上 说 也 局 限 了 其 应 用 范围 ,特别 是 现实 生活 中 绝 大 多 数 实例 数 
据 的 特征 和 目标 之 间 不 是 严格 的 线性 关系 。 尽 管 如 此 ,在 不 清楚 特征 之 间 关 系 的 前 提 
下 ,仍然 可 以 使 用 线性 回归 模型 作为 大 多 数 科学 实验 的 基线 系统 (Baseline System) 。 


10.3.2 Logistic 回归 分 类 器 


假设 现在 有 一 些 数据 点 ,使 用 一 条 直线 对 这 些 点 进行 拟 合 ( 该 线 称 为 最 佳 拟 合 直 
线 ) ,这 个 拟 合 过 程 就 称 作 回归 。 利 用 Logistic 回归 进行 分 类 的 主要 思想 是 根据 现 有 
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数据 对 分 类 边界 线 建立 回归 公式 ,以 此 进行 分 类 。“ 回 归 ? 一 词 源 于 最 佳 拟 合 ,表示 要 
找到 最 佳 拟 合 参数 集 ,其 背后 的 数学 分 析 将 在 下 一 部 分 介绍 。 训 练 分 类 器 时 的 做 法 
就 是 寻找 最 佳 拟 合 参 数 ,使 用 的 是 最 优化 算法 。 我 们 想 要 的 函数 应 该 是 能 接受 所 有 
的 输入 ,然后 预测 出 类 别 。 例 如 在 两 个 类 的 情况 下 ,函数 输出 0 或 1, 这 个 函数 就 是 二 
值 型 输出 分 类 器 的 sigmoid 函数 : 


g(z) = (10.1) 


1 十 e 

图 10.5 给 出 了 sigmoid 函数 在 不 同 坐 标尺 度 下 的 两 条 曲线 图 。 当 x 为 0 时 ， 
sigmoid 函数 值 为 0.5。 随 着 x 的 增 大 ,对 应 的 sigmoid 函数 值 将 逼近 于 1; 随 着 x 的 
减 小 ,sigmoid 函数 值 将 逼近 于 0。 

因此 ,为 了 实现 Logistic 回归 分 类 器 ,可 以 在 1 
每 个 特征 上 都 乘 以 一 个 回归 系数 ,然后 把 所 有 的 
结果 值 相 加 ,将 这 个 总 和 代入 sigmoid 函数 中 , 进 
而 得 到 一 个 范围 在 0 一 !1 的 数值 。 任 何 大 于 0.5 
的 数据 被 归 和 人 1 类 ,小 于 0.5 的 被 归 入 0 类 。 所 
以 ,Logistic 回归 可 以 被 看 成 是 一 种 概率 估计 。 

在 线性 回归 {(x) = wx 十 b 中 ,为 了 将 整个 目 辐 10.5 ogiste 本 数 因 人 
标 值 压缩 在 (0,1) 上 ,引入 Logistic 函数 ,于 是 就 有 了 


-6 4 2 0 2 4 6 


g({(x)) = (10. 2) 


= 
IT 二 ee 

Logistic 回归 的 一 般 过 程 如 下 。 

(1) 收集 数据 : 采用 任意 方法 收集 数据 。 

(2) 准备 数据 : 由 于 需要 进行 距离 计算 ,所 以 要 求 数据 类 型 为 数值 型 。 另 外 , 结 
构 化 数据 格式 最 佳 。 

(3) 分 析 数 据 : 采用 任意 方法 对 数据 进行 分 析 。 

(4) 训练 算法 : 大 部 分 时 间 将 用 于 训练 ,训练 的 目的 是 为 了 找到 最 佳 的 分 类 回归 
系数 。 

(5) 测试 算法 : 一 旦 训练 步骤 完成 ,分 类 将 会 很 快 。 

(6) 使 用 算法 : 首先 需要 输入 一 些 数据 ,并 将 其 转换 成 对 应 的 结构 化 数值 ; 接着 
基于 训练 好 的 回归 系数 就 可 以 对 这 些 数 值 进 行 简单 的 回归 计算 ,判定 它们 属于 哪个 
类 别 ; 在 这 之 后 ,就 可 以 在 输出 的 类 别 上 做 一 些 具 体 的 分 析 工 作 。 
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下 面 用 Python 代码 来 进行 良 / 恶 性 乳腺 肿瘤 预测 的 实践 ,用 到 的 原始 数据 下 载 


地 址 为 “https://archive. ics. uci. edu/ml/machine-learning-databases/breast-cancer- 


a 
wisconsin/” 。 


(1) 导入 需要 的 数据 。 


# 导 人 需要 用 到 的 库 

import pandas as pd 

import numpy as np 

# 创建 特征 列表 

column_names = ['Sample code number', 'Clump Thickness', 'Unigormity og Cell Size','Uniformity 
of Cell Shape', 'Marginal Adhesion', 'Single Epithelital CellSize', 'Bare 
Nuclei', 'Bland Chromatin', 'Normal Nucleoli', 'Mitoses', 'Class'] 

# 读 取 数 据 

data = pd. read csv('https://archive. ics. uci. edu/ml/machine - learning - databases/breast — 

cancer — wisconsin/breast — cancer — wisconsin. data', names = column_ 


names) 

data. describe( ) 

读 取 后 ,数据 显示 如 下 。 

Sample code |Clump |Unigormity |Uniformity of | Marginal Sr Bland Normal | mnoses |ciass 

number Thickness | og Cell size | cell shape | Adhesion | callsbe Chromatin | Nucleoli 
count |6.990000e+02 | 699 000000 | 699.000000 |699.000000 ”| 699 000000 | 699.000000 。 | 699 .000000 | 699 .000000 | 699 .000000 | 699 000000 
mean | 1071704e+06 | 4. 417740 |3.134478 |3207439 |2806867 |3216023 3.437768 |2.866953 |1.589413 |2.689557 
std |6.170957e+05|2815741 |3051459 。 |2971913 |2855379 |2214300 2.438364 |3.053634 |1.715078 |0.951273 
min |6.163400e+04|1000000 |1000000 |1000000 |1000000 |1.000000 1.000000 |1.000000 |1.000000 |2.000000 
25% |8.706885e+05|2000000 |1000000 |1000000 |1000000 |2000000 2000000 |1000000 |1000000 |2.000000 
50% |1171710e+06|4000000 |1000000 |1000000 |1000000 |2000000 3.000000 |1000000 |1000000 |2.000000 
75% |1.238298e+06|6.000000 |5000000 |5000000 |4000000 |4.000000 5.000000 |4.000000 |1.000000 |4.000000 
max |1.345435e+07|10.000000 |10.000000 |10.000000 |10000000 |10.000000 |10.000000 |10 000000 | 10.000000 |4.000000 


从 该 表 可 以 知道 ,共有 699 条 数据 ,各 特征 的 数据 描述 如 上 所 示 。 
(2) 对 数据 进行 预 处 理 。 


# 对 数据 进行 简单 预 处 理 

# 将 ?替换 为 标准 缺失 值 

data = data. replace(to replace= '?', value = np. nan) 
# 去掉 带 有 缺失 值 的 数据 

data = data. dropna( how = 'any') 

# 再 次 对 数据 进行 描述 

data. describe() 
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描述 结果 如 下 ,可 以 看 到 去 掉 缺 失 值 后 有 683 条 完整 的 数据 。 


Sample code | clump |Unigormity |Uniformity of | Marginal Bland Normal | woses |class 

number Thickness | og Cell Size | cell Shape |Adhesion ee Chromatin | Nucleori 
count |6.830000e+02 | 583 000000 | 583.000000 ”| 583 000000 ”| 583 000000 | 683.000000 。 | 583 000000 | 683 000000 | 683 .000000 | 583 000000 
mean | 1 076720er06 | 4 442167 ”|3 150805 |3215227 |2830161 |3234261 3.445095 |2869693 |1.603221 |2.699854 
std |6.206440e+05|2820761 |3.065145 |2988581 |2864562 |2223085 2.449697 |3.052666 |1.732674 |0.954592 
min |6.337500e+t04|1.000000 |1000000 |1.000000 |1.000000 |1.000000 1.000000 |1.000000 |1.000000 |2.000000 
25% |8.776170e+05|2000000 |1000000 |1000000 |1000000 |2000000 2.000000 |1.000000 |1.000000 |2000000 
50% |1.171795e+06|4000000 |1.000000 |1.000000 |1.000000 |2000000 3.000000 |1.000000 |1.000000 |2.000000 
75% |1.238705et06|6.000000 |5000000 |5000000 |4.000000 |4000000 5.000000 |4000000 |1.000000 |4.000000 
max |1.345435e+07|10.000000 |10.000000 |10000000 |10000000 |10.000000 |10.000000 |10.000000 | 10.000000 |4.000000 


(3) 由 于 原始 的 数据 没有 提供 对 应 的 测试 样本 用 于 评估 模型 ,所 以 需要 对 标记 
的 数据 进行 分 割 , 这 里 用 25% 的 数据 作为 测试 集 ,75% 的 数据 作为 训练 集 , 代 码 如 下 。 


# 对 数据 进行 分 割 
from sklearn. cross_validation import train test split 


#75 旬 的 数据 作为 训练 集 ,25 % 的 数据 作为 测试 集 


XxX train, X test, y train, y test= train test_ split(data[column names[1:10]], data[column 
_names[10]], test_size= 0.25, random state= 33) 


# 查 验 训练 样本 的 数量 和 类 别 分 布 


ytrain. value counts() 


# 查 验 测试 样本 的 数量 和 类 别 分 布 
y_test. value counts() 


以 上 完成 了 对 数据 的 预 处 理 过 程 ,用 于 训练 的 样本 有 512 条 (344 条 良性 肿瘤 
数据 ,168 条 恶性 肿瘤 数据 ) ,测试 样本 有 171 条 (100 条 良性 肿瘤 数据 ,71 条 恶 


肿瘤 数据 ) 。 


(4) 用 Logistic 回归 对 上 面 的 数据 进行 训练 。 


# 导 入 需要 用 到 的 算法 
from sklearn. preprocessing import StandardScaler 
from sklearn. linear model import LogisticRegression 


# 对 数据 进行 标准 化 处 理 
ss= StandardScaler() 

XxX train= ss.fit transform(X train) 
X test= ss. transform(X test) 


# 初始化 Logistic 回归 器 和 SGDClassifier 
lr= LogisticRegression() 
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# 训练 模型 


lr.fit(X train, y train) 
# 预 测 


lr y pred= 1r.predict(X test) 


(5) 模型 性 能 评测 。 


from sklearn. metrics import classification report 
# 使 用 Logistic 自 带 的 评分 函数 
print( 'Accuracy of LR Classifier:', lr.score(X test, y test)) 


# 其 他 指标 
print(classification report(y_test, lr y pred, target names = ['Benign', 'Malignant'])) 


其 测评 结果 如 下 : 


Accuracy of LR Classifier: 0.988304093567 
precision recall fl- score support 


Benign 0.99 0.99 0.99 100 
Malignant 0.99 0.99 0.99 71 
avg / total 0.99 0.99 0.99 171 


下 面 对 Logistic 做 一 个 简单 的 小 结 。 

(1) 优点 : 计算 代价 不 高 ,易于 理解 和 实现 。 
(2) 缺点 : 容易 欠 拟 合 , 分 类 精度 可 能 不 高 。 
(3) 适用 的 数据 类 型 : 数值 型 和 标 称 型 数据 。 


10.3.3 朴素 贝 叶 斯 分 类 器 


朴素 贝 叶 斯 是 一 个 非常 简单 ,但 实用 性 很 强 的 分 类 模型 ,朴素 贝 叶 斯 分 类 器 的 构 
造 基础 是 贝 叶 斯 理论 。 

抽象 一 些 说 ,朴素 贝 叶 斯 分 类 器 会 单独 考量 每 一 维度 特征 被 分 类 的 条 件 概率 , 进 
而 综合 这 些 概 率 ,并 对 其 所 在 的 特征 向 量 做 出 分 类 预测 。 因 此 ,这 个 模型 的 基本 数学 
假设 是 各 个 维度 上 的 特征 被 分 类 的 条 件 概率 之 间 是 相互 独立 的 。 


1. 贝 叶 斯 决策 理论 


朴素 贝 叶 斯 是 贝 叶 斯 决策 理论 的 一 部 分 ,所 以 在 讲述 朴素 贝 叶 斯 之 前 有 必要 快 
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速 了 解 一 下 贝 叶 斯 决策 理论 。 
假设 现在 有 一 个 数据 集 , 它 由 两 类 数据 组 成 ,数据 分 布 如 图 10.6 所 示 。 
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图 10.6 二 类 别 分 布 图 
假设 有 位 读者 找到 了 描述 图 中 两 类 数据 的 统计 参数 。 现 在 用 pl1(x,y) 表 示 数 据 
点 (x,y) 属 于 类 别 1( 图 中 用 圆 点 表示 的 类 别 ) 的 概率 ,用 p2(x,y) 表 示 数 据点 (x,y) 属 
于 类 别 2( 图 中 用 三 角形 表示 的 类 别 ) 的 概率 ,那么 对 于 一 个 新 数据 点 (x,y) ,可 以 用 
下 面 的 规则 来 判断 它 的 类 别 : 
(1) 如 果 pl(x,y)> p2(x,y) ,那么 类 别 属于 1。 
(2) 如 果 pl(x,y)< ja 05 
也 就 是 说 ,我 们 会 选择 高 概率 对 应 的 类 别 。 这 就 是 贝 叶 斯 决策 理论 的 核心 思想 ， 
选择 具有 最 高 概率 的 决策 。 


2. 朴素 贝 叶 斯 (Naive Bayes) 


根据 上 面 可 以 知道 贝 叶 斯 决策 理论 是 以 概率 为 基础 的 ,那么 朴素 贝 叶 斯 的 思 
想 也 很 简单 ,是 基于 条 件 概率 的 : 对 于 给 出 的 待 分 类 项 ,求解 在 此 项 出 现 的 条 件 下 
各 个 类 别 出 现 的 概率 ,哪个 概率 值 大 就 认为 该 分 类 项 属于 哪 一 类 。 其 定理 定义 
如 下 : 

(1) 设 x 二 {a1,as，… as) 为 待 分 类 项 ,而 每 个 ai 为 输入 x 的 一 个 特征 属性 。 

(2) 设 了 二 {yi ,yz，… ,ym) 为 一 个 类 别 集合 。 

(3) 计算 PCyi |x) ,PCys |x),…,P(ys, | x)。 

(4) 如 果 Ply |x) 二 max{P(yi |x) ,PCyz [x),…,P(ys |x)}, 则 xCyk。 

上 面 定 义 的 关键 步骤 还 是 步骤 3, 该 步 的 求解 就 用 到 了 朴素 贝 叶 斯 的 两 大 基 
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础 一 一 贝 叶 斯 公式 和 特征 条 件 独立 假设 。 具 体 求解 过 程 如 下 : 
(1) 给 定 一 组 训练 数据 集 ,用 于 训练 参数 。 
(2) 统计 得 到 在 每 种 类 别 下 各 个 特征 属性 的 条 件 概 率 估计 (这 一 步 使 用 极 大 似 
然 估计 或 者 贝 叶 斯 估计 )。 
PCa | y.) Plas | y1) ,Pla, | yn) 
Plai | y),P(as | yz),… ,PCas | y2) 


(10.3) 
Pla | yo Pas | ya PC | 区) 
(3) 根据 贝 叶 斯 公式 有 以 下 推导 : 
_ P(x | y)P(y) 
Py 1 xz 一 一 Oo (10.4) 


由 全 概率 公式 可 知 , 对 于 所 有 类 别 来 说 ,P(x) 为 一 个 常数 。 因 此 ,只 需要 比较 每 
一 类 的 PCx|y)P(yi) ,哪个 值 最 大 , 待 分 类 项 就 是 哪 一 类 。 因 为 有 特征 条 件 独立 的 假 
设 ,所 以 可 以 使 用 条 件 独立 公式 求解 : 

PCx | y)P(y) = Pla | yi)*P(as | yD)*x*…x*Pan|y)xPCy) (10. 5) 


3. 用 朴素 贝 叶 斯 对 文档 进行 分 类 


朴素 贝 叶 斯 分 类 器 的 一 个 重要 应 用 就 是 文档 的 自动 分 类 。 在 文档 分 类 中 , 整 
个 文档 (例如 一 封 电子 邮件 ?是 实例 ,而 电子 邮件 中 的 某 些 元 素 则 构成 特征 。 虽 然 
电子 邮件 是 一 种 会 不 断 增加 的 文本 ,但 我 们 同样 可 以 对 新 闻 报 道 . 用 户 留言 、 政 府 
公文 等 其 他 任意 类 型 的 文本 进行 分 类 。 可 以 观察 文档 中 出 现 的 词 , 并 把 每 个 词 
的 出 现 或 者 不 出 现 作为 一 个 特征 ,这 样 得 到 的 特征 数目 就 会 跟 词汇 表 中 的 词 目 
一 样 多 。 朴 素 贝 叶 斯 是 朴素 贝 叶 斯 分 类 器 的 一 个 扩展 ,是 用 于 文档 分 类 的 常用 
算法 。 

朴素 贝 叶 斯 的 一 般 使 用 过 程 如 下 。 

(1) 收集 数据 : 可 以 使 用 任何 方法 。 

(2) 准备 数据 : 需要 数值 型 或 者 布尔 型 数据 。 

(3) 分 析 数 据 : 当 有 大 量 特征 时 ,绘制 特征 作用 不 大 ,此 时 使 用 直方 图 效果 更 好 。 

(4) 训练 算法 : 计算 不 同 的 独立 特征 的 条 件 概率 。 

(5) 测试 算法 : 计算 错误 率 。 
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(6) 使 用 算法 : 一 个 常见 的 朴素 贝 叶 斯 应 用 是 文档 分 类 。 用 户 可 以 在 任意 的 分 
类 场景 中 使 用 朴素 贝 叶 斯 分 类 器 ,不 一 定 非 要 是 文本 。 

下 面 用 20 类 新 闻 文 本 数据 为 例 , 对 其 用 朴素 贝 叶 斯 分 类 器 进行 分 类 。 

(1) 导入 数据 。 


# 导 人 数据 
from sklearn. datasets import fetch 20newsgroups 
news = fetch 20newsgroups( subset = 'all’) 


(2) 对 数据 做 随机 分 割 , 形 成 训练 集 和 测试 集 。 


# 数 据 分 割 

from sklearn. cross_validation import train test_ split 

# 随 机 采样 ,25 % 的 数据 样本 作为 测试 集 

X train, X test, y train, y test = train test split(news. data, news. target, test_size= 0.25, 
random_state = 33) 


(3) 构建 模型 。 


# 使 用 朴素 贝 叶 斯 分 类 器 对 新 闻 文 本 数据 进行 类 别 预 测 
# 将 文本 数据 转化 为 特征 向 量 

from sklearn. feature extraction. text import CountVectorizer 
vec = CountVectorizer( ) 

XxX train= vec.fit transform(X train) 

X_ test = vec. transform(X_test) 

# 导 入 贝 叶 斯 模型 

from sklearn. naive_bayes import MultinomialNB 

mnb = MultinomialNB() 

# 训练 模型 

mnb. fit(X_train, y train) 

# 预测 

Y pred = mnb. predict(X_test) 


(4) 模型 评估 。 


# 性 能 评估 

from sklearn. metrics import classification report 

print( 'The accuracy of Naive Bayes Classifier is:', mnb. score(X test, y_test)) 
print(classification report(y test, y pred, target names = news. target names)) 
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The accuracy of Naive Bayes Classifier is: 0.839770797963 
precision recall fl 一 score support 


alt. atheism 0.86 0.86 0.86 201 
comp. graphics 0.59 0.86 0.70 250 
Comp. os. ms — windows. misc 0.89 0.10 DIT 248 
comp. sys. ibm. pc. hardware 0.60 0.88 0.72 240 
comp. sys. mac, hardware 0.93 0.78 0.85 242 
Comp. windows. x 0.82 0.84 0.83 263 
misc. forsale D091 0.70 0.79 257 
rec.autos 0.89 0.89 0.89 238 
rec. motorcycles 0.98 0.92 0.95 276 
rec. sport. baseball 0.98 0.91 0.95 251 
rec. sport. hockey 0.93 0.99 0.96 233| 
sci.crypt 0.86 0.98 0.91 238 
sci.electronics 0.85 0.88 0.86 249 
sci. med 0.92 0.94 0.93 245 
sci. space 0.89 0.96 0.92 221 
soc. religion. christian 0.78 0.96 0.86 232 
talk. politics.guns 0.88 0.96 0.92 251 
talk. politics.mideast 0.90 0.98 0.94 231 
talk. politics. misc 0.79 0.89 0.84 188 
talk. religion. misc 0.93 0.44 0.60 158 
avg / total 0.86 0.84 0.82 4712 


通过 代码 的 输出 可 以 知道 ,朴素 贝 叶 斯 对 该 文本 数据 分 类 的 正确 率 为 83. 977%， 
平均 精确 率 、 召 回 率 和 F1 得 分 分 别 为 0.86、0. 84 和 0. 82。 

朴素 贝 叶 斯 模型 被 广泛 应 用 于 海量 互联 网 文本 的 分 类 任务 。 由 于 其 较 强 的 特征 
条 件 独立 假设 ,使 得 模型 预测 所 需要 估计 的 参数 规模 从 寡 指 数量 级 向 线性 量 级 减少 ， 
极 大 地 节约 了 内 存 消耗 和 计算 时 间 。 但 是 ,也 正 是 因为 受到 这 种 强 假设 的 限制 ,模型 
训练 时 无 法 将 各 个 特征 之 间 的 联系 考虑 进去 ,使 得 该 模型 在 其 他 数据 特征 关联 性 较 
强 的 分 类 任务 上 的 性 能 表现 不 佳 。 

小 结 : 对 于 分 类 而 言 ,使 用 概率 有 时 要 比 使 用 硬 规则 更 为 有 效 。 贝 叶 斯 概率 及 
贝 叶 斯 准则 提供 了 一 种 利用 已 知 值 来 估计 未 知 概率 的 有 效 方法 ,可 以 通过 特征 之 间 
的 条 件 独立 性 假设 降低 对 数据 量 的 需求 。 独 立 性 假设 是 指 一 个 词 的 出 现 概 率 并 不 依 
赖 于 文档 中 的 其 他 词 。 当 然 , 这 个 假设 过 于 简单 。 这 就 是 称 之 为 朴素 贝 叶 斯 的 原因 。 
尽管 条 件 独 立 性 假设 并 不 正确 ,但 是 朴素 贝 叶 斯 仍然 是 一 种 有 效 的 分 类 器 。 
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10.3.4 支持 向 量 机 


在 介绍 支持 向 量 机 (SVM) 之 前 先 解释 几 个 概念 。 如 图 10. 7 所 示 ,将 数据 集 分 隔 
开 来 的 直线 称 为 分 隔 超 平面 (separating hyper plane) 。 在 下 面 给 出 的 例子 中 ,由 于 数 
据点 都 在 二 维 平 面 上 ,所 以 此 时 分 隔 超 平面 只 是 一 条 直线 。 


一 


图 10.7 分 隔 超 平面 


如 图 10.7 所 示 ,从 直观 上 来 看 ,左边 肯定 不 是 最 优 分 界面 ; 而 右边 能 让 人 感觉 到 
其 距离 更 大 ,使 用 的 支撑 点 更 多 ,应 该 是 最 优 分 界面 。 那 么 ,究竟 什么 样 的 分 界面 是 
最 优 的 呢 ? 

采用 这 种 方式 来 构建 分 类 器 ,如 果 数 据点 离 决策 边界 越 远 ,那么 其 最 后 的 预测 
结果 也 就 越 可 信 。 所 以 我 们 希望 找到 离 分 隔 超 平面 最 近 的 点 ,确保 它们 离 分 隔 面 
的 距离 尽 可 能 远 。 这 里 点 到 分 隔 面 的 距离 被 称 为 间隔 (margin)。 和 希望 间隔 尽 可 能 
大 ,这 是 因为 如 果 我 们 犯错 或 者 在 有 限 数据 上 训练 分 类 器 ,我 们 希望 分 类 器 尽 可 能 
健壮 。 

支持 向 量 (support vector) 就 是 离 分 隔 超 平面 最 近 的 那些 点 。 接 下 来 要 试 着 最 大 
化 支持 向 量 到 分 隔 面 的 距离 ,需要 找到 此 问题 的 优化 求解 方法 。 

支持 向 量 机 分 类 器 是 根据 训练 样本 的 分 布 搜索 所 有 可 能 的 线性 分 类 器 中 最 佳 的 
那个 , 即 寻 找到 一 个 最 佳 超 平面 。 

接 下 来 用 Scikit-learn 内 部 集成 的 手写 体 数字 图 片 的 数据 集 对 SVM 进行 应 用 。 

# 读 取 数 据 

from sklearn. datasets import load digits 

digits = load digits() 

# 读 取 数 据 维度 


digits. data. shape 
(1797, 64) 
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从 上 面 这 段 代 码 的 运行 结果 可 以 知道 该 手写 体 数字 的 数码 图 像 数 据 共 有 1797 
条 ,并 且 每 幅 图 片 都 是 由 8X8=64 的 像素 矩阵 组 成 。 在 模型 使 用 这 些 像 素 矩 阵 的 时 
候 ,我们 习惯 将 2D 的 图 片 像 素 矩 阵 逐 行 首 尾 拼接 成 1D 的 像素 特征 向 量 。 这 样 做 也 
许 会 损失 一 些 数据 本 身 的 结构 信息 ,但 遗憾 的 是 ,我 们 当下 所 介绍 的 经 典 模型 都 没有 
对 结构 性 信息 进行 学 习 的 能 力 。 

按照 惯例 ,对 于 没有 直接 提供 测试 样本 的 数据 ,我 们 都 要 通过 数据 分 割 获取 75% 
的 训练 样本 和 25% 的 测试 样本 数据 ,代码 如 下 : 


# 对 数据 进行 分 割 

from sklearn. cross_validation import train test split 

XxX train, X test, y train, y test= train test_split(digits. data, digits. target, test_size 
= 0.25, random state = 33) 


接 下 来 用 上 面 产生 的 训练 数据 来 训练 一 个 基于 线性 核 函 数 的 支持 向 量 机 模型 : 


# 使 用 SVM 对 数字 进行 识别 

from sklearn. preprocessing import StandardScaler 
from sklearn. svm import LinearSVC 

# 初 始 化 

ss = StandardScaler() 

# 数 据 标准 化 

X_train = ss. fit transform(X train) 

X_test = ss.transform(X test) 


# 训练 模型 

svec= LinearSVvC() 

svc. fit(X train, y_train) 

# 预 测 

Y_pred = svc. predict(X_test) 

# 模 型 评估 

print ('The accuracy of SVM is:', svc. score(X test, y_test)) 
from sklearn. metrics import classification report 


代码 输出 结果 为 : 


The accuracy of SVM is: 0.953333333333 
precision recall fl- score support 


0 0.92 1.00 0.96 三 -/ 
1 0.96 0.98 0.97 54 
2 0.98 1.00 0.99 44 
Ed 0.93 O93 0.93 46 
4 0.97 1.00 0.99 35 
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0.94 0.94 0.94 48 
6 0.96 0.98 0.97 51 
7 0.92 1.00 0.96 35 
8 0.98 0.84 0.91 58 
9 0.95 0.91 0.93 44 
avg / total 0.95 095 0.95 450 


通过 代码 的 运行 结果 可 以 知道 ,支持 向 量 机 模型 的 确 能 够 提供 比较 高 的 手写 数 
字 识 别 性 能 。 平 均 而 言 ,各 项 指标 都 在 95% 左 右 。 

在 这 里 需要 指出 的 是 ,召回 率 、 准 确 率 和 Fl 得 分 指标 最 先 适用 于 二 分 类 任务 ,但 
是 在 本 例 中 分 类 目标 有 10 个 , 即 数 字 0 一 9, 因 此 无 法 直接 计算 上 述 3 个 指标 。 通 常 
的 做 法 是 逐一 评估 某 个 类 别 的 这 3 项 指标 : 把 所 有 其 他 的 类 别 看 作 是 负 样 本 ,这 样 一 
来 ,就 创造 了 10 个 二 分 类 问题 。 

SVM 的 特点 分 析 : 支持 向 量 机 模型 曾经 在 机 器 学 习 研 究 领 域 繁荣 发 展 了 很 长 
一 段 时 间 ,主要 是 在 于 其 精妙 的 模型 设计 , 它 可 以 帮助 用 户 在 海量 甚至 高 维度 的 数据 
中 筛选 对 预测 任务 最 为 有 效 的 少数 训练 样本 。 这 样 做 不 仅 节省 了 学 习 所 需要 的 数据 
内 存 , 同 时 也 提高 了 模型 的 预测 性 能 。 然 而 ,要 获得 如 此 的 优势 就 必须 付出 更 多 的 计 
算 代价 (CPU 资源 和 计算 时 间 ) 。 

最 后 对 SVM 做 一 个 简单 的 总 结 ,包括 它 的 一 些 显著 特点 以 及 一 些 缺 点 。 

(1) 支持 向 量 的 重要 性 : SVM 的 计算 复杂 度 主 要 取决 于 支持 向 量 的 个 数 ,而 不 
是 样本 空间 的 维 数 , 所 以 在 一 定 程度 上 避免 了 维 数 灾难 ,这 是 很 难 的 。 另 外 ,支持 向 
量具 有 和 鲁 棒 性 ,因为 SVM 的 分 类 主要 是 由 支持 向 量 来 确定 的 ,所 以 对 于 那些 不 是 支 
持 向 量 的 样本 数据 ,并 不 会 对 最 后 的 分 类 影响 多 少 。 

(2) 核 函 数 的 威力 : 虽然 SVM 是 线性 的 学 习 器 ,但 是 它 借助 核 函 数 可 以 实现 低 
位 非 线 性 向 量 到 高 位 空间 线性 向 量 的 映射 ,这 使 得 SVM 不 仅 可 以 解决 线性 问题 ,也 
可 以 解决 非 线 性 问题 。 

(3) SVM 是 使 用 二 次 规划 进行 求解 的 ,所 以 在 求解 过 程 中 需要 的 存储 空间 比较 
大 ,这 导致 SVM 适合 小 样本 的 数据 ,而 对 于 规模 比较 大 的 数据 效果 不 会 很 好 ,这 也 是 
SVM 的 重要 缺点 。 


10.3.5 KNN 算法 


th 


国 由 i 
K 邻近 算法 ,或 者 说 K 最 近邻 (k-Nearest Neighbor, KNN) 分 类 算 。 视频 讲解 
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法 ,是 数据 挖掘 分 类 技术 中 最 简单 的 方法 之 一 。 所 谓 K 最 近邻 ,是 K 个 最 近 的 邻居 
的 意思 , 即 每 个 样本 都 可 以 用 它 最 接近 的 个 邻居 来 代表 。 


1. KNN 算法 的 思想 


如 果 一 个 样本 在 特征 空间 中 的 K 个 最 相 邻 的 样本 中 的 大 多 数 属于 某 一 个 类 别 ， 
则 该 样本 也 属于 这 个 类 别 , 并 具有 这 个 类 别 上 样本 的 特性 。 该 方法 在 确定 分 类 决策 
上 只 依据 最 邻近 的 一 个 或 者 几 个 样本 的 类 别 来 决定 待 分 样本 所 属 的 类 别 。KNN 方 
法 在 用 于 类 别 决策 时 只 与 极 少量 的 相 邻 样本 有 关 。 

由 于 KNN 方法 主要 靠 周围 有 限 的 邻近 样本 ,而 不 是 靠 判 别 类 域 的 方法 来 确定 
所 属 的 类 别 ,所 以 对 于 类 域 的 交叉 或 重 琶 较 多 的 待 分 样本 集 来 说 ,KNN 方法 比 其 他 
方法 更 为 适合 。 


2. KNN 算法 的 决策 过 程 


图 10. 8 中 有 两 种 类 型 的 样本 数据 ,一 类 是 正方 形 , 另 一 类 是 三 角形 ,中 间 圆 形 是 
待 分 类 数据 。 

如 果 二 3, 那 么 离 圆 点 最 近 的 有 两 个 三 角形 和 
一 个 正方 形 , 这 3 个 点 进行 投票 ,于 是 待 分 类 点 就 属 
于 三 角形 。 如 果 K=5, 那 么 离 圆 点 最 近 的 有 两 个 三 
角形 和 3 个 正方 形 ,这 5 个 点 进行 投票 ,于 是 待 分 类 
点 就 属于 正方 形 。 

KNN 算法 不 仅 可 以 用 于 分 类 ,还 可 以 用 于 回归 。 
通过 找 出 一 个 样本 的 K 个 最 近邻 居 , 将 这 些 邻 居 的 
属性 的 平均 值 赋 给 该 样本 ,就 可 以 得 到 该 样本 的 属 
性 。 更 有 用 的 方法 是 将 不 同 距离 的 邻居 对 该 样本 产生 的 影响 给 予 不 同 的 权 值 
(weight) ,例如 权 值 与 距离 成 反比 。 


图 10.8 K 近邻 分 类 图 


3. KNN 算法 的 Python 实现 


下 面 用 代码 来 实现 KNN 算法 的 应 用 。 本 次 用 到 的 数据 是 经 典 的 Iris 数据 集 。 
该 数据 集 有 150 条 匣 尾 花 数 据 样本 ,并 且 均 匀 地 分 布 在 3 个 不 同 的 亚 种 ,每 个 数据 样 
本 被 4 个 不 同 的 花 辩 、 花 葛 的 形状 特征 所 描述 。 
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# 读 取 数 据 
from sklearn. datasets import load iris 
data= load_iris() 
# 查 看 数据 大 小 
data. data. shape 
(150, 4) 
# 查 看 数据 说 明 
print (data. DESCR) 
Notes 
Data Set Characteristics: 
:Number of Instances: 150 (50 in each of three classes) 
:Number of Attributes: 4 numeric, predictive attributes and the class 
:Attribute Information: 
一 sepal length in cm 
一 sepal width in cm 
一 petal length in cm 
一 petal width in cm 
一 class: 
- Iris - Setosa 
— Iris- Versicolour 
— Iris— Virginica 
:Summary Statistics: 


Mean SD Class Correlation 


sepal length: 9 5.84 0.83 0.7826 
sepal width: 50 4 3.05 0.43 -0.4194 

petal length: 1.0 6.9 3.76 1.76 0.9490 (high!) 
petal width: ou 2 1.20 0.76 0.9565 (high!) 


:Missing Attribute Values: None 
:Class Distribution: 33.3% for each of 3 classes. 


:Creator: R.A. Fisher 

:Donor: Michael Marshall (MARSHALL % PLUG io. arc. nasa. gov) 

:Date: July, 1988 
This is a copy of UCI ML iris datasets. 
http://archive. ics. uci. edu/ml/datasets/Iris 
The famous Iris database, first used by Sir R.A Fisher 
This is perhaps the best known database to be found in the pattern recognition literature. 
Fisher's paper is a classic in the field and is referenced frequently to this day. (See Duda 
& Hart, for example.) The data set contains 3 classes of 50 instances each, where each class 
refers to a type of iris plant. One class is linearly separable from the other 2; the latter 
are NOT linearly separable from each other. 
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一 Many, many more ... 


通过 上 述 代码 对 数据 的 查验 以 及 数据 本 身 的 描述 ,我 们 可 以 了 解 到 Iris 数据 集 
共有 150 条 竟 尾 花 数 据 样本 ,并 且 均 匀 地 分 布 在 3 个 不 同 的 亚 种 ,每 个 数据 样本 被 
4 个 不 同 的 花瓣 、 花 葛 的 形状 特征 所 描述 。 由 于 没有 指定 的 测试 集 , 依 据 惯 例 ,需要 
对 数据 进行 随机 分 割 ,将 25% 的 数据 用 作 测 试 ,75% 的 数据 用 作 训 练 。 

需要 强调 的 是 ,如 果 读 者 自行 编写 程序 用 作 数 据 分 割 , 请 务必 保证 是 随机 采样 。 
尽管 很 多 数据 集中 的 样本 的 排序 相对 随机 ,但 是 也 有 例外 。 在 本 例 中 ,Iris 数据 就 是 
根据 类 别 依 次 排列 的 。 如 果 只 采样 前 25% 的 数据 用 作 测 试 ,那么 所 有 的 测试 样本 都 
属于 一 个 类 别 。 同 时 训练 样本 也 是 不 均衡 的 ,这 样 得 到 的 结果 存在 偏 置 , 并 且 可 信 度 
非常 低 ,Scikit-learn 所 提供 的 数据 分 割 模块 是 默认 采用 随机 采样 功能 的 ,因此 读者 不 
必 担 心 。 


# 对 数据 进行 分 割 

from sklearn. cross_validation import train test split 

X train, X test, y train, y test = train test split(data. data, data. target, test size=0.25, 
random state= 33) 


# 使 用 KNN 算法 进行 分 类 

from sklearn. preprocessing import StandardScaler 
from sklearn. neighbors import KNeighborsClassifier 
# 初 始 化 

ss = StandardScaler() 
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# 数 据 标准 化 
XxX train= ss. fit transform(X train) 
X test = ss.transform(X test) 


# 训练 模型 

knc = KNeighborsClassifier() 
knc. fit(X train, y train) 

# 预测 

Y_pred = knc. predict(X_test) 


# 模型 评估 

Print ('The accuracy of KNN is:', knc. score(X test, y test)) 

from sklearn. metrics import classification report 
print(classification report(y test, y_pred, target names= data. target names)) 


代码 输出 结果 如 下 ,KNN 算法 对 药 尾 花 测 试 数据 的 分 类 准确 率 为 89. 474% ,其 
他 数据 如 下 。 


The accuracy of KNN is: 0.894736842105 
precision recall fl- score support 


setosa 1.00 1.00 1.00 8 
versicolor 0.73 1.00 0.85 11 
virginica 1.00 0.79 0.88 19 
avg / total 0.92 0.89 0.90 38 


KNN 算法 的 特点 分 析 : KNN 算法 是 非常 直观 的 机 器 学 习 模型 ,因此 深 受 广大 
初学 者 的 喜爱 。 许 多 教科 书 往往 以 此 模型 抛砖引玉 ,足以 看 出 其 不 仅 特别 ,而 且 尚 有 
瑕 症 之 处 。 细 心 的 读者 会 发 现 ,KNN 算法 与 其 他 算法 模型 最 大 的 不 同 在 于 该 模型 没 
有 参数 训练 过 程 。 也 就 是 说 ,我 们 并 没有 通过 任何 学 习 算法 来 分 析 训 练 数据 ,而 只 是 
根据 测试 样本 在 训练 数据 中 的 分 布 直 接 做 出 分 类 决策 。 因 此 ,KNN 算法 属于 无 参数 
模型 中 非常 简单 的 一 种 。 然 而 , 正 是 这 样 的 决策 算法 导致 了 其 非常 高 的 计算 复杂 度 
和 内 存 消耗 。 因 为 该 模型 每 处 理 一 个 测试 样本 ,都 需要 对 所 有 事先 加 载 在 内 存 中 的 
训练 样本 进行 遍历 、 逐 一 计算 相似 度 、 排 序 并 且 选 取 K 个 最 近邻 训练 样本 的 标记 , 进 
而 做 出 分 类 决策 。 这 是 平方 级 的 算法 复杂 度 , 一 旦 数据 规模 稍 大 , 便 需 要 权衡 更 多 计 
算 时 间 的 代价 。 

最 后 ,对 KNN 算法 做 一 个 简单 的 小 结 。 


® 
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优点 : 

(1) 简单 ,易于 理解 ,易于 实现 ,无 须 估 计 参 数 ,无须 训练 。 

(2) 适合 对 稀有 事件 进行 分 类 。 

(3) 特别 适合 于 多 分 类 问题 (multi-modal, 对象 具 有 多 个 类 别 标签 ), KNN 比 
SVM 的 表现 要 好 。 

缺点 : 

(1) 当 样 本 不 平衡 时 ,例如 一 个 类 的 样本 容量 很 大 ,而 其 他 类 的 样本 容量 很 小 ， 
有 可 能 导致 输入 一 个 新 样本 时 该 样本 的 K 个 邻居 中 大 容量 类 的 样本 占 多 数 ,少数 类 
容易 分 错 。 

(2) 需要 存储 全 部 训练 样本 。 

(3) 计算 量 较 大 ,因为 对 每 一 个 待 分 类 的 文本 都 要 计算 它 到 全 体 已 知 样本 的 距 
离 ,才能 求 得 它 的 个 最 近邻 点 。 

(4) 可 理解 性 差 , 无 法 给 出 像 决策 树 那样 的 规则 。 


10.3.6 决策 树 


1. 决策 树 简介 


决策 树 的 原理 非常 简单 ,即便 用 户 之 前 没有 接触 过 决策 树 , 也 可 以 通过 图 10.9 
了 解 其 工作 原理 。 图 10. 9 所 示 的 流程 图 就 是 一 个 决策 树 , 正 方形 代表 判断 模块 


发 送 邮件 域名 地 址 为 : 
MyEmPloyer.com 


无 聊 时 需要 包含 单词 “ 曲 棍 
球 ” 的 邮件 


阅读 的 邮件 


的 朋友 邮件 


图 10.9 流程 图 形式 的 决策 树 


无 须 阅读 的 
垃圾 邮件 
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(decision block) ,椭圆 形 代表 终止 模块 (terminating block) ,表示 已 经 得 出 结论 ,可 以 
终止 运行 。 从 判断 模块 引出 的 左右 箭头 称 作 分 支 (branch) , 它 可 以 到 达 另 一 个 判断 
模块 或 者 终止 模块 。 图 10. 9 构造 了 一 个 假想 的 邮件 分 类 系统 , 它 首先 检测 发 送 邮 件 
域名 地 址 ,如果 地 址 为 MyEmPloyer. com, 则 将 其 放 在 分 类 “无 聊 时 需要 阅读 的 邮件 ” 
中 。 如 果 邮 件 不 是 来 自 这 个 域名 , 则 检查 邮件 内 容 里 是 否 包含 单词 “曲棍球 ”, 若 包 
含 , 则 将 邮件 归 类 到 “需要 及 时 处 理 的 朋友 邮件 ”; 车 不 包含 , 则 将 邮件 归 类 到 “无 须 
阅读 的 垃圾 邮件 ”。 

在 构造 决策 树 时 ,需要 解决 的 第 一 个 问题 就 是 当前 数据 集 上 哪个 特征 在 划分 数 
据 分 类 时 起 决定 性 作用 。 为 了 找到 决定 性 的 特征 ,划分 出 最 好 的 结果 ,必须 评估 每 个 
特征 。 在 完成 测试 之 后 ,原始 数据 集 就 被 划分 为 几 个 数据 子 集 。 这 些 数据 子 集会 分 
布 在 第 一 个 决策 点 的 所 有 分 支 上 。 如 果 某 个 分 支 下 的 数据 属于 同一 类 型 , 则 当前 无 
须 阅读 的 垃圾 邮件 已 经 正确 地 划分 数据 分 类 ,无 须 进一步 对 数据 集 进行 分 割 。 如 果 
数据 子 集 内 的 数据 不 属于 同一 类 型 , 则 需要 重复 划分 数据 子 集 的 过 程 。 划 分 数据 子 
集 的 方法 和 划分 原始 数据 集 的 方法 相同 ,直到 所 有 具有 相同 类 型 的 数据 均 在 一 个 数 
据 子 集 内 。 

目前 常用 的 决策 树 算法 有 ID3 算法 、C4.5 算法 和 CART 算法 ,这 些 算法 将 在 后 
面 介 绍 。 


2. 信息 增益 


划分 数据 集 的 大 原则 是 将 无 序 的 数据 变 得 更 加 有 序 。 用 户 可 以 使 用 多 种 方法 划 
分 数据 集 , 但 是 每 种 方法 都 有 各 自 的 优 缺 点 。 组 织 杂乱 无 章 的 数据 的 一 种 方法 就 是 
使 用 信息 论 度量 信息 ,信息 论 是 量化 处 理 信 息 的 分 支 科 学 。 用 户 可 以 在 划分 数据 之 
前 使 用 信息 论 量化 度量 信息 的 内 容 。 

在 划分 数据 集 之 前 、 之 后 信息 发 生 的 变化 称 为 信息 增益 ,知道 如 何 计算 信息 增 
益 , 就 可 以 计算 每 个 特征 值 划 分 数据 集 获 得 的 信息 增益 ,获得 信息 增益 最 高 的 特征 就 
是 最 好 的 选择 。 

在 可 以 评测 哪 种 数据 划分 方式 是 最 好 的 数据 划分 之 前 ,必须 学 习 如 何 计算 信息 
增益 。 集 合 信息 的 度量 方式 称 为 香农 人 或 者 简称 为 粹 ,这 个 名 字 来 源 于 信息 论 之 父 

炉 定 义 为 信息 的 期 望 值 ,在 明晰 这 个 概念 之 前 ,大 家 必须 知道 信息 的 定义 。 如 果 
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待 分 类 的 事务 可 能 划分 在 多 个 分 类 之 中 , 则 信息 定义 为 : 
l(x) =— log: p(x;) (10.6) 
其 中 ,p(xi) 为 选择 该 分 类 的 概率 。 
为 了 计算 炉 , 需 要 计算 所 有 类 别 中 所 有 可 能 值 包含 的 信息 期 望 值 ,通过 下 面 的 公 
式 得 到 : 


H = 一 pS， log:pCxi) (10.7) 

其 中 ,n 是 分 类 的 数目 。 

已 经 有 了 炉 作 为 衡量 训练 样本 集合 的 标准 ,现在 可 以 定义 属性 分 类 训练 数据 的 
效力 的 度量 标准 。 这 个 标准 被 称 为 “信息 增益 (information gain)”。 简 单 地 说 ,一 个 
属性 的 信息 增益 就 是 由 于 使 用 这 个 属性 分 割 样 例 而 导致 的 期 望 箭 降低 (或 者 说 样本 
按照 菜 属 性 划分 时 造成 炉 减 少 的 期 望 )。 现 在 假设 将 训练 元 组 D 按 属性 A 进行 划 
分 , 则 A 对 DD 划分 的 期 望 信息 为 : 


I(D) = 一 >) FS1D) (10. 8) 


i=!1 


信息 增益 即 为 两 者 的 差 值 : 
gain(A) = I(A) — 1 (D) (10. 9) 


3. 决策 树 分 类 算法 


1) ID3 算法 

ID3 算法 是 决策 树 算法 的 一 种 。 在 了 解 什么 是 ID3 算法 之 前 ,读者 要 先 明 白 一 
个 概念 一 一 奥 卡 姆 剃刀 。 

奥 卡 姆 剃刀 (Occam's Razor，Ockham's Razor) 又 称 " 奥 坎 的 剃刀 ”, 是 由 14 世纪 
罗 辑 学 家 、 圣 方 济 各 会 修士 奥 卡 姆 的 威廉 (William of Occam, 约 1285 年 至 1349 年 ) 
提出 的 ,他 在 《入 言 书 注 )2 卷 15 题 说 “ 切 勿 浪费 较 多 东西 ,去 做 “用 较 少 的 东西 ,同样 
可 以 做 好 的 事情 '。” 简 单 点 说 便 是 be simple。 

ID3 算法 是 一 个 由 Ross Quinlan 发 明 的 用 于 决策 树 的 算法 。 这 个 算法 便 是 建立 
在 上 述 所 介绍 的 奥 卡 姆 剃刀 的 基础 上 : 越 是 小 型 的 决策 树 越 优 于 大 的 决策 树 (be 
simple 理论 ) 。 尽 管 如 此 ,该 算法 也 不 是 总 是 生成 最 小 的 树 形 结构 ,而 是 一 个 启发 式 
算法 。 

从 信息 论 知识 中 可 以 知道 ,期 望 信息 越 小 ,信息 增益 越 大 ,从 而 纯度 越 高 。ID3 
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算法 的 核心 思想 就 是 以 信息 增益 度量 属性 选择 ,选择 分 裂 后 信息 增益 最 大 的 属性 进 
行 分 裂 。 该 算法 采用 自 顶 向 下 的 贪 禁 搜索 遍历 可 能 的 决策 树 空间 。 

所 以 ,ID3 的 思想 如 下 : 

(1) 自 项 向 下 的 贪 禁 搜索 遍历 可 能 的 决策 树 空间 构造 决策 树 ( 此 方法 是 ID3 算 
法 和 C4.5 算法 的 基础 )。 

(2) 从 * 哪 一 个 属性 将 在 树 的 根 结 点 被 测试 ?开始 。 

(3) 使 用 统计 测试 来 确定 每 一 个 实例 属性 单独 分 类 训练 样 例 的 能 力 ,分 类 能 力 
最 好 的 属性 作为 树 的 根 结 点 测试 (如 何 定义 或 者 评判 一 个 属性 是 分 类 能 力 最 好 的 呢 ? 
这 便 是 前 面 介绍 的 信息 增益 ,或 信息 增益 率 。 这 里 要 说 的 是 信息 增益 和 信息 增益 率 
是 不 同 的 ,ID3 基于 信息 增益 来 选择 最 好 的 属性 ,而 接 下 来 介绍 的 C4. 5 则 是 基于 增 
益 率 来 进行 选择 ,这 也 是 它 进 步 的 地 方 )。 

(4) 然后 为 根 结 点 属性 的 每 个 可 能 值 产生 一 个 分 支 , 并 把 训练 样 例 排列 到 适当 
的 分 支 ( 也 就 是 说 , 样 例 的 该 属性 值 对 应 的 分 支 ) 之 下 。 

(5) 重复 这 个 过 程 ,用 每 个 分 支 结 点 关联 的 训练 样 例 来 选取 在 该 点 被 测试 的 最 
佳 属性 。 

这 形成 了 对 合格 决策 树 的 贪 禁 搜 索 ,也 就 是 算法 从 不 回溯 重新 考虑 以 前 的 选择 。 

2) C4.5 算法 

C4.5 是 机 器 学 习 算 法 中 的 另 一 个 分 类 决策 树 算法 , 它 是 决策 树 ( 决 策 树 也 就 是 
做 决策 的 结 点 间 的 组 织 方式 像 一 棵 树 ,其 实 是 一 个 倒 树 ) 核 心算 法 ,也 是 前 面 所 介绍 
的 ID3 的 改进 算法 ,所 以 用 户 基 本 上 了 解 了 一 般 决 策 树 构造 方法 就 能 构造 它 。 决 策 
树 构 造 方法 其 实 就 是 每 次 选择 一 个 好 的 特征 以 及 分 裂 点 作为 当前 结 点 的 分 类 条 
件 。 既 然 说 C4. 5 算法 是 ID3 的 改进 算法 ,那么 C4.5 与 ID3 相 比 改进 的 地 方 有 哪 
些 呢 ? 

(1) 用 信息 增益 率 来 选择 属性 : ID3 选择 属性 用 的 是 子 树 的 信息 增益 ,这 里 可 以 
用 很 多 方法 来 定义 信息 ,ID3 使 用 的 是 炉 (entropy, 炉 是 一 种 不 纯度 度量 准则 ) ,也 就 
是 炉 变 化 值 ,而 C4. 5 用 的 是 信息 增益 率 。 它 们 的 区 别 就 在 于 一 个 是 信息 增益 ,一 个 
是 信息 增益 率 。 

(2) 在 树 的 构造 过 程 中 进行 剪 枝 , 在 构造 决策 树 的 时 候 那 些 挂 着 几 个 元 素 的 结 
点 最 好 不 考虑 ,否则 容易 导致 over fitting。 

(3) 对 非 离散 数据 也 能 处 理 。 
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(4) 能 够 对 不 完整 数据 进行 处 理 。 

针对 上 述 第 一 点 解释 一 下 : 一 般 来 说 , 率 是 取 平衡 用 的 ,和 方差 起 的 作用 差 不 
多 ,比如 有 两 个 跑步 的 人 ,一 个 人 起 速 是 10m/s、 其 10s 后 为 20m/s; 另 一 个 人 起 速 是 
lm/s、 其 1s 后 为 2m/s。 如 果 仅 仅 算 差 值 ,那么 两 个 差距 就 很 大 了 ,如 果 使 用 速度 增 
加 率 ( 加 速度 , 即 都 为 1m/s “2) 来 衡量 ,两 个 人 就 是 一 样 的 加 速度 。 因 此 ,C4. 5 克服 
了 ID3 用 信息 增益 选择 属性 时 偏向 选择 取 值 多 的 属性 的 不 足 。 

3) CART(Classification and Regression Tree) 算 法 

分 类 与 回归 树 模型 由 Breiman 等 人 在 1984 年 提出 ,是 应 用 广泛 的 决策 树 学 
习 方法 。CART 同样 由 特征 选择 、 树 的 生成 及 剪 枝 组 成 , 既 可 以 用 于 分 类 也 可 以 
用 于 回归 。CART 是 在 给 定 输入 随机 变量 X 条件 下 输出 随机 变量 Y 的 条 件 概率 
分 布 的 学 习 方法 。CART 假设 决策 树 是 二 叉 树 ,内 部 结 点 特征 的 取 值 为 “是 ”和 
“ 否 ”, 左 分 支 是 取 值 为 是 ”的 分 支 , 右 分 支 是 取 值 为 * 否 ”的 分 支 。 这 样 的 决策 树 
等 价 于 递归 地 二 分 每 个 特征 ,将 输入 空间 ( 即 特 征 空间 ) 划 分 为 有 限 个 单元 ,并 在 
这 些 单元 上 确定 预测 的 概率 分 布 ,也 就 是 输入 给 定 的 条 件 下 输出 的 条 件 概率 
分 布 。 

CART 算法 由 以 下 两 步 组 成 。 

(1) 决策 树 生成 : 基于 训练 数据 集 生成 决策 树 ,生成 的 决策 树 要 尽量 大 。 

(2) 决策 树 剪 枝 : 用 验证 数据 集 对 已 生成 的 树 进行 剪 枝 并 选择 最 优 子 树 , 这 时 用 
损失 函数 最 小 作为 剪 枝 的 标准 。 

CART 算法 主要 分 为 两 大 部 分 : 

(1) 回归 数 的 生成 ,针对 Y 是 连续 变量 。 

(2) 分 类 树 的 生成 ,针对 Y 是 离散 变量 。 

下 面 用 代码 来 实现 一 个 决策 树 分 类 的 案例 。 这 次 使 用 的 数据 是 泰坦 尼克 号 的 乘 
客 的 生还 /遇难 数据 ,具体 代码 如 下 : 


# 导入 pandas 库 

import pandas as pd 

# 读 取 数据 

data = pd. read_csv( 'train. csv') 
# 查看 数据 的 前 几 行 
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这 段 代 码 的 输出 结果 如 下 : 
Passengerid | Survived | Pclass| Name Sex ”|Age| sibsp|Parch| Ticket Fare | cabin|Embarked 
of1 0 3 |Braund, Mr Owen Hamis male |220]1 |o |As2t71 72500 |NaN |S 
1|2 1 1 |Cumings,Mrs: JohnBradey(Florence |iemaielasol! |o |pct7s99 |7128aa|cas |c 
Briggs Th 
STONO2 
2|3 1 3 |heiuinen Miss Laina female|260|0 |o |3iot282 79250 |NaN |S 
3 引 4 1 1 mh JacquesHeah (LiyMay [femaiel3s0|1 Jo |113803 531000|c123 |S 
4|5 0 3 |Alen, Mr Wiliam Henry male |350l0 |o |373450 8.0500 |NaN |S 


从 这 段 代 码 可 以 看 到 该 数据 共有 12 个 特征 ,对 于 每 个 特征 的 取 值 类 型 也 能 知 
道 , 这 便 为 进行 下 一 步 分 析 打下 了 基础 。 


# 查 看 数据 说 明 


data. info( ) 


了 解数 据 , 结 果 如 下 : 


<class 'pandas. core. frame. DataFrame> 
RangeIndex: 891 entries, 0 to 890 
Data columns (total 12 columns): 


PassengerId 
Survived 
Pclass 

Name 

Sex 


Fare 
Cabin 
Embarked 


891 non— null int64 
891 non— null int64 
891 non - null int64 
891 non— null object 
891 non— null object 
714 non— null float64 
891 non— null int64 
891 non— null int64 
891 non - null object 
891 non— null float64 
204 non— null object 
889 non - null object 


dtypes: float64(2), int64(5), object(5) 
# 对 'age' 这 一 列 进行 缺失 值 的 填充 ,采用 均值 填充 
data[ 'Mge']. fillna(data[ 'Age']. mean(), inplace = True) 
# 根 据 分 析 , 'Cabin' 这 一 列 数 据 不 是 想 要 的 特征 ,所 以 不 对 其 进行 填充 
# 处 理 后 再 对 数据 进行 描述 
data. describe() 


对 存在 缺失 值 的 列 进行 数值 填充 ,采用 均值 填充 ,结果 如 下 : 
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Passengerld | Survived |Pclass Age SibSp Parch Fare 
count | 891.000000 |891.000000 | 891.000000 | 891.000000 | 891.000000 | 891.000000 | 891.000000 
mean |446.000000 |0.383838 |2308642 |29.699118 |0.523008 |0.381594 |32204208 
std |257353842 |0.486592 |0836071 |13.002015 |1102743 |0.806057 |49.693429 
min |1.000000 0.000000 |1.000000 |0.420000 |0.000000 |0.000000 |0.000000 
25% |223.500000 |0.000000 |2000000 |22.000000 |0.000000 |0.000000 |7.910400 
50% |446.000000 |0.000000 |3.000000 |29.699118 |0.000000 |0.000000 |14454200 
75% |668.500000 |1.000000 |3.000000 |35.000000 |1.000000 |0.000000 |31.000000 
max |891.000000 |1.000000 |3.000000 |80.000000 |8.000000 |6.000000 |512329200 


X= data[[ 'Pclass', 'Sex', 'Age']] 
y= data[ 'Survived'] 


构建 label 和 特征 ,进行 模型 训练 ; 


# 数 据 分 割 
from sklearn. cross_validation import train test split 
XxX train, X test, y train, y test= train test split(X, y, test_size= 0.25, random state= 33) 


## 使 用 sklearn. feature_extraction 中 的 特征 转换 器 
from sklearn. feature extraction import DictVectorizer 
vec = DictVectorizer(sparse = False) 


# 特征 转换 后 , 发现 凡是 类 别 型 的 特征 都 单独 剥离 出 来 , 独 成 一 项 特征 ,数值 型 的 则 保持 不 变 
X_train = vec. fit transform(X train.to dict(orient = 'record')) 
# 同样 对 测试 数据 进行 特征 转换 


X_test = vec.fit transform(X_test.to dict(orient = 'record') ) 


划 导 和 决策 树 分 类 器 

from sklearn. tree import DecisionTreeClassifier 
# 初 始 化 分 类 器 

dtc = DecisionTreeClassifier() 

# 用 训练 数据 进行 学 习 

dtc. fit(X train, y_ train) 


# 对 测试 集 数据 进行 预测 
Y_pred = dtc. predict(X_test) 


# 对 算法 进行 评价 
from sklearn. metrics import classification report 


# 输 出 预测 准确 性 
print(dtc. score(X test, y test)) 


# 输 出 更 加 详细 的 分 类 性 能 
print (classification report(y pred, y test, target names=['die', 'survived'])) 
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输出 结果 如 下 : 


0.834080717489 
precision recall fl—score support 


die 0.90 0.84 0.87 143 
survived 0.74 0.82 0.78 80 
avg / total 0.84 0.83 0.84 223 


该 模型 在 该 数据 上 的 总 体 预测 准确 率 为 83. 4% ,但 是 对 遇难 者 的 预测 准确 
率 达 到 了 90%, 对 幸存 者 的 预测 准确 率 只 有 74% ,这 说 明 该 模型 还 存在 提高 的 
空间 。 

特点 分 析 : 与 其 他 的 模型 相 比 ,决策 树 算法 在 模型 描述 上 有 着 巨大 的 优势 。 决 
策 树 的 推断 逻辑 非常 直观 ,具有 清晰 的 可 解释 性 ,也 方便 了 模型 的 可 视 化 。 这 些 特性 
也 保证 了 使 用 决策 树 模型 时 是 无 须 考虑 对 数据 的 量化 或 标准 化 的 ,并 且 决 策 树 仍 属 
于 有 参数 的 学 习 模 型 ,需要 花费 很 多 时 间 在 训练 数据 上 的 。 

但 是 决策 树 很 容易 产生 过 拟 合 的 问题 ,过 拟 合 指 的 是 在 训练 集 上 表现 良好 ,而 在 
测试 集 上 表现 很 差 的 现象 。 产 生 过 拟 合 主要 有 以 下 几 个 原因 。 

(1) 噪音 数据 : 训练 数据 中 存在 噪音 数据 ,决策 树 的 某 些 结 点 由 噪音 数据 作为 分 
割 标 准 , 导 致 决策 树 无 法 代表 真实 数据 。 

(2) 缺少 代表 性 数据 : 训练 数据 没有 包含 所 有 具有 代表 性 的 数据 ,导致 某 一 类 数 
据 无 法 很 好 的 匹配 ,这 一 点 可 以 通过 观察 混淆 矩阵 (Confusion Matrix) 分 析 得 出 。 

(3) 多 重 比较 (Mulitple, Comparition) : 这 一 情况 和 决策 树 选取 分 割 点 类 似 , 需 
要 在 每 个 变量 的 每 个 值 中 选取 一 个 作为 分 割 的 代表 ,所 以 选 出 一 个 噪音 分 割 标准 的 
概率 是 很 大 的 。 

决策 树 防止 过 拟 合 的 一 个 有 效 操作 是 修 枝 剪 叶 。 

决策 树 过 拟 合 往往 是 因为 太 过 “茂盛 ”, 也 就 是 结 点 过 多 ,所 以 需要 裁剪 (Prune 
Tree) 枝 叶 。 裁 前 枝叶 的 策略 对 决策 树 正 确 率 的 影响 很 大 ,主要 有 以 下 两 种 裁剪 
策略 。 

(1) 前 置 裁剪 : 在 构建 决策 树 的 过 程 中 提前 停止 ,那么 会 将 切 分 结 点 的 条 件 设 置 
得 很 苛刻 ,导致 决策 树 很 短小 ,结果 就 是 决策 树 无 法 达到 最 优 。 实 践 证 明 这 种 策略 无 
法 得 到 较 好 的 结果 。 
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(2) 后 置 裁剪 : 决策 树 的 剪 枝 往往 通过 极 小 化 决策 树 整体 的 损失 函数 或 代价 函 
数 来 实现 。 这 样 考虑 了 减 小 模型 复杂 度 ,决策 树 生成 学 习 局 部 模型 ,而 决策 树 剪 枝 学 
习 整 体 的 模型 ,利用 损失 函数 最 小 原则 进行 剪 枝 就 是 用 正则 化 的 极 大 似 然 估 计 进 行 

设 一 组 叶 结 点 回 缩 到 其 父 结 点 之 前 的 整体 树 的 损失 函数 值 比 之 后 的 函数 值 要 
大 , 则 进行 前 枝 。 这 个 过 程 一 直 进 行 ,直到 不 能 继续 为 止 ,最 后 得 到 损失 函数 最 小 的 
子 树 。 


本 章 小 结 


(1) 本 章 介 绍 了 机 器 学 习 的 一 般 流程 。 

(2) 介绍 有 监督 学 习 的 几 个 常用 算法 ,有 监督 学 习 包 括 线性 回归 、Logistic 回归 、 
朴素 贝 叶 斯 ,SVM KNN 和 决策 树 等 。 

(3) 本 章 从 原理 到 应 用 介绍 了 几 个 常用 的 机 器 学 习 算 法 ,并 分 析 了 它们 各 自 的 
优 缺 点 。 

(4) 作为 全 书 最 核心 的 章节 之 一 ,本 章 较 为 详细 地 从 Python 代码 的 角度 教 大 家 
怎样 使 用 这 些 算法 。 


习题 


1. 对 泰坦 尼克 号 的 船员 生存 /遇难 数据 用 Logistic 回归 做 分 类 ,比较 它 与 决策 树 
算法 的 准确 率 。 

2. 尝试 对 泰坦 尼克 号 的 船员 生存 /遇难 数据 选用 不 同 的 特征 做 预测 ,比较 它们 
的 准确 率 。 

3. 简 述 朴素 贝 叶 斯 算法 的 原理 。 

4. 比较 使 用 不 同 的 核 函 数 时 SVM 算法 的 效果 。 

5. 尝试 用 不 同 的 决策 树 算法 对 书 中 的 数据 进行 分 类 ,比较 它们 的 准确 率 。 
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机 如 学 习 一 一 无 监督 学 习 


本 章 学 习 目 标 : 

。 了解 无 监督 机 器 学 习 原 理 

。 了 解 聚 类 问题 相关 算法 并 进行 运用 

。 了 解 关 联 规则 问题 相关 算法 并 进行 运用 


11.1 无 监督 学 习 


第 10 章 重点 介绍 了 监督 学 习 。 在 监督 学 习 中 ,必须 具有 一 定 的 先 验 知识 ,例如 
人 工 标注 类 别 。 但 是 在 现实 生活 中 ,并 非 所 有 数据 都 会 具有 先 验 知识 ,往往 缺乏 这 类 
人 工 标注 ,或 者 人 工 标注 成 本 过 高 。 这 时 就 需要 在 没有 人 工 参 与 的 情况 下 让 计算 机 
自主 地 基于 某 种 算法 对 数据 进行 处 理 和 学 习 , 这 称 为 无 监督 学 习 。 在 无 监督 学 习 中 ， 
数据 并 不 被 特别 标识 ,学 习 模 型 是 为 了 推断 出 数据 的 一 些 内 在 结构 ,往往 在 结果 出 来 
之 前 没 人 知道 结果 是 什么 样子 。 其 常见 的 应 用 场景 有 聚 类 和 关联 规则 的 学 习 等 。 聚 
类 算法 的 典型 应 用 包括 鸡尾酒 会 问题 ( 即 在 一 个 鸡尾酒 会 上 有 两 种 声音 ,被 两 个 不 同 
的 麦克 风 在 不 同 的 地 方 接收 到 ,如 何 分 离 这 两 种 不 同 的 声音 ?) ,图 片 的 自动 分 类 和 识 
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别 ,社交 媒体 用 户 的 人 群 划 分 等 。 图 11. 1 展示 了 本 章 将 涉及 的 几 种 无 监督 机 器 学 习 
算法 。 


K-Means DBSCAN Apriori FP-growth 


图 11.1 本 章 涉及 的 机 器 学 习 算法 


11.2 聚 类 


在 正式 讨论 聚 类 之 前 ,需要 先 弄 清楚 一 个 问题 如 何 定量 计算 两 个 可 比较 元 素 
间 的 相 异 度 。 用 通俗 的 话说 , 相 异 度 就 是 两 个 东西 差别 有 多 大 ,例如 人 类 与 章鱼 的 相 
异 度 明显 大 于 人 类 与 黑猩猩 的 相 异 度 , 这 是 我 们 能 直观 感受 到 的 。 但 是 ,计算 机 没有 
这 种 直观 感受 能 力 , 因 此 必须 对 相 异 度 在 数学 上 进行 定量 定义 。 

设 X= (xi xx),Y 一 (yy ,yo), 其 中 X.Y 是 两 个 元 素 项 ,各 自 具 有 nm 
个 可 度量 特征 属性 ,那么 X 和 YY 的 相 异 度 定义 为 d(X,Y) 二 f(X,Y) 一 R, 其 中 RR 为 实 
数 域 。 也 就 是 说 , 相 异 度 是 两 个 元 素 对 实数 域 的 一 个 映射 ,所 映射 的 实数 定量 表示 两 
个 元 素 的 相 异 度 。 下 面 介绍 不 同类 型 变量 相 异 度 的 计算 方法 。 


11.2.1 相 异 度 


1. 标量 


标量 也 就 是 无 方向 意义 的 数字 ,也 叫 标 度 变量 。 现 在 先 考虑 元 素 的 所 有 特征 属 
性 都 是 标量 的 情况 。 例 如 ,计算 X= {2,1,102} 和 Y= 二 {1,3,2) 的 相 异 度 。 一 种 很 自 
然 的 想法 是 用 两 者 的 欧 几 里 得 距离 来 作为 相 异 度 , 欧 几 里 得 距离 的 定义 如 下 : 
d(X,Y) = Va —y) 二 (x CO—y) 二 十 (x 一 ys) 《lalsay 
其 意义 就 是 两 个 元 素 在 欧 氏 空间 中 的 集合 距离 ,因为 其 直观 易 懂 且 可 解释 性 强 ， 
被 广泛 用 于 标识 两 个 标量 元 素 的 相 异 度 。 将 上 面 两 个 示例 数据 代入 公式 ,可 得 两 者 
的 欧 氏 距离 为 : 
d(X,Y) = V(2 一 1 六 十 (1 一 3 六 十 (102 一 2)” 一 100.025 (11.2) 
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除 欧 氏 距 离 外 ,常用 作 度 量 标 量 相 异 度 的 还 有 曼哈顿 距离 和 闵可夫 斯 基 距 离 ,两 
者 的 定义 如 下 。 


曼哈顿 距离 : 
d(X,Y) = |x—y | |xz CO—y|+… 十 |x 一 y,| C11,3) 
闵可夫 斯 基 距 离 : 
dX,Y) = Vix—y Tix OO—y T+ 十 |x, CO— ys (11.4) 


欧 氏 距离 和 曼哈顿 距离 可 以 看 作 是 闵可夫 斯 基 距 离 在 p= 二 2 和 p 二 1 下 的 特例 。 
另外 ,这 3 种 距离 都 可 以 加 权 , 这 很 容易 理解 ,因此 不 再 袭 述 。 

下 面 要 说 一 下 标量 的 规格 化 问题 。 上 面 这 样 计 算 相 异 度 的 方式 有 一 点 问题 ,就 
是 取 值 范围 大 的 属性 对 距离 的 影响 高 于 取 值 范围 小 的 属性 。 例 如 上 述 例子 中 第 3 个 
属性 的 取 值 跨度 远大 于 前 两 个 ,这 样 不 利于 真实 反映 相 异 度 , 为 了 解决 这 个 问题 ,一 
般 要 对 属性 值 进行 规格 化 。 所 谓 规格 化 ,就 是 将 各 个 属性 值 按 比例 映射 到 相同 的 取 
值 区 间 , 这 样 是 为 了 平衡 各 个 属性 对 距离 的 影响 。 通 常 将 各 个 属性 映射 到 [0,1] 区 
间 ,映射 公式 为 : 


/一 一 4 一 min(a) _ 
RS max(ai) — min(ai) 《HS 


其 中 ,max(a) 和 min(ai) 表 示 所 有 元 素 项 中 第 i 个 属性 的 最 大 值 和 最 小 值 。 例 如 
将 示例 中 的 元 素 规格 化 到 [0,1] 区 间 后 ,就 变 成 了 X'=={1,0,1},Y' 二 {0,1,0} ,重新 计 
算 欧 氏 距离 约 为 1.732。 


2. 二 元 变量 


二 元 变量 是 只 能 取 0 和 1 两 种 值 的 变量 ,有 点 类 似 布 尔 值 ,通常 用 来 标识 是 或 不 
是 这 种 二 值 属性 。 对 于 二 元 变量 ,上 面 提 到 的 距离 不 能 很 好 地 标识 其 相 异 度 , 因 此 需 
要 一 种 更 适合 的 标识 。 一 种 常用 的 方法 是 用 元 素 相同 序 位 同 值 属 性 的 比例 来 标识 其 
相 异 度 。 

设 有 X 一 {1,0,0,0,1,0,1,1)},Y 一 {0,0,0,1,1,1,1,1}, 可 以 看 到 两 个 元 素 的 第 
2.、3、5、7,8 个 属性 取 值 相同 ,而 第 1、4、6 个 取 值 不 同 ,那么 相 异 度 可 以 标识 为 3/8 一 
0.375。 一 般 地 ,对 于 二 元 变量 , 相 异 度 可 用 “ 取 值 不 同 的 同位 属性 数 /单个 元 素 的 属 
性 位 数 ” 标 识 。 

上 面 所 说 的 相 异 度 应 该 叫 对 称 二 元 相 异 度 。 在 现实 中 还 有 一 种 情况 ,就 是 我 们 
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只 关心 两 者 都 取 1 的 情况 ,而 认为 两 者 都 取 0 的 属性 并 不 意味 着 两 者 更 相似 。 例 如 
在 根据 病情 对 病人 聚 类 时 ,如 果 两 个 人 都 患 有 肺癌 , 则 认为 两 个 人 增强 了 相似 度 ,但 
如 果 两 个 人 都 没 患 肺癌 ,并 不 觉得 这 加 强 了 两 人 的 相似 性 ,在 这 种 情况 下 , 改 用 “ 取 值 
不 同 的 同位 属性 数 /( 单 个 元 素 的 属性 位 数 - 同 取 0 的 位 数 )” 来 标识 相 异 度 ,这 叫 非 对 
称 二 元 相 异 度 。 如 果 用 1 减 去 非 对 称 二 元 相 异 度 , 则 得 到 非 对 称 二 元 相似 度 , 也 叫 
Jaccard 系数 ,这 是 一 个 非常 重要 的 概念 。 


3. 分 类 变量 


分 类 变量 是 二 元 变量 的 推广 ,类 似 于 程序 中 的 枚 举 变量 ,但 各 个 值 没有 数字 或 序 
数 意 义 , 例 如 颜色 、 民 族 等 。 对 于 分 类 变量 ,用 “ 取 值 不 同 的 同位 属性 数 /单个 元 素 的 
全 部 属性 数 ” 来 标识 其 相 异 度 。 


4. 序数 变量 


序数 变量 是 具有 序数 意义 的 分 类 变量 ,通常 可 以 按照 一 定 的 顺序 意义 排列 ,例如 
冠军 .亚军 和 季军 。 对 于 序数 变量 ,一般 为 每 个 值 分 配 一 个 数 , 叫 这 个 值 的 秩 , 然 后 以 
秩 代替 原 值 当 作 标量 属性 计算 相 异 度 。 


5. 向 量 


对 于 向 量 , 由 于 它 不 仅 有 大 小 而 且 有 方向 ,所 以 闵可夫 斯 基 距 离 不 是 度量 其 相 异 
度 的 好 办 法 ,一 种 流行 的 做 法 是 用 两 个 向 量 的 余弦 度量 ,其 度量 公式 为 : 


s(X,Y) = (C11.67 


XY 
1x IYl 

其 中 , ‖X| 表示 X 的 欧 几 里 得 范 数 。 注 意 ,余弦 度量 度量 地 不 是 两 者 的 相 异 
度 ,而 是 相似 度 。 

讨论 完了 相 异 度 计算 的 问题 ,就 可 以 正式 定义 聚 类 问题 了 。 

所 谓 聚 类 问题 ,就 是 给 定 一 个 元 素 集合 D, 其 中 每 个 元 素 具 有 n 个 可 观察 属性 ， 
使 用 某 种 算法 将 D 划分 成 上 个 子 集 , 要 求 每 个 子 集 内 部 的 元 素 之 间 相 异 度 尽 可 能 低 ， 
而 不 同 子 集 的 元 素 相 异 度 尽 可 能 高 。 其 中 每 个 子 集 叫 一 个 簇 。 

与 分 类 不 同 ,分 类 是 示例 式 学 习 , 要 求 在 分 类 前 明确 各 个 类 别 , 并 断言 每 个 元 素 
映射 到 一 个 类 别 ,而 聚 类 是 观察 式 学 习 , 在 聚 类 前 可 以 不 知道 类 别 甚至 不 给 定 类 别 数 
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量 ,是 无 监督 学 习 的 一 种 。 目 前 , 聚 类 广泛 应 用 于 统计 学 .生物 学 ,数据库 技术 和 市 场 
营销 等 领域 ,相应 的 算法 也 非常 多 。 下 节 介 绍 一 种 最 简单 的 聚 类 算法 一 一 K 均值 
(K-Means) 算 法 。 

通常 ,人 们 根据 样本 间 的 某 种 距离 或 者 相似 性 来 定义 聚 类 , 即 把 相似 的 (或 距离 
近 的 ) 样 本 聚 为 同一 类 ,而 把 不 相似 的 (或 距离 远 的 ) 样 本 归 在 其 他 类 。 


11.2.2 K-Means 算法 


1. 算法 简介 


K-Means 算法 是 一 种 聚 类 算法 。 所 谓 聚 类 , 即 根据 相似 性 原则 ,将 具有 较 高 相似 
度 的 数据 对 象 划分 至 同一 类 簇 , 将 具有 较 高 相 异 度 的 数据 对 象 划分 至 不 同类 复 。 聚 
类 与 分 类 最 大 的 区 别 在 于 , 聚 类 过 程 为 无 监督 过 程 , 即 待 处 理 数据 对 象 没 有 任何 先 验 
知识 ,而 分 类 过 程 为 有 监督 过 程 , 即 存在 有 先 验 知识 的 训练 数据 集 。 

K-Means 算法 中 的 K 代表 类 簇 个 数 ,means 代表 类 簇 内 数据 对 象 的 均值 (这 种 均 
值 是 一 种 对 类 簇 中 心 的 描述 )。K-Means 算法 是 一 种 基于 划分 的 聚 类 算法 ,以 距离 作 
为 数据 对 象 间 相似 性 度量 的 标准 , 即 数据 对 象 间 的 距离 越 小 ,它们 的 相似 性 越 高 , 则 
它们 越 有 可 能 在 同一 个 类 簇 。 数 据 对 象 间 距离 的 计算 有 很 多 种 ,K-Means 算法 通常 
采用 欧 氏 距离 来 计算 数据 对 象 间 的 距离 。 

K-Means 算法 是 一 种 很 常见 的 聚 类 算法 , 它 的 基本 思想 是 通过 迄 代 寻找 K 个 聚 
类 的 一 种 划分 方案 ,使 得 用 这 K 个 聚 类 的 均值 来 代表 相应 各 类 样本 时 所 得 的 总 体 误 
差 最 小 。 

K-Means 算法 的 基础 是 最 小 误差 平方 和 准则 。 其 代价 函数 是 : 


K 
JCep) = >) x) — ped) 1 (11.7) 
i=1 


式 中 ,p.(i) 表 示 第 i 个 聚 类 的 均值 。 通 常 希望 代价 函数 最 小 ,直观 地 说 ,各 类 内 
的 样本 越 相 似 , 其 与 该 类 均值 间 的 误差 平方 越 小 ,对 所 有 类 所 得 到 的 误差 平方 求 和 ， 
即 可 验证 分 为 K 类 时 各 聚 类 是 否 为 最 优 的 。 

上 式 的 代价 函数 无 法 用 解析 的 方法 最 小 化 ,只 能 有 和 迭代 的 方法 。K-Means 算法 
是 将 样本 聚 类 成 个 簇 (cluster) ,其 中 K 是 用 户 给 定 的 ,然后 通过 和 迭代 的 方法 达到 
误差 最 小 或 达到 可 接受 的 误差 范围 内 ,其 求解 过 程 非常 直观 .简单 ,具体 算法 描述 
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如 下 : 

首先 初始 化 KK 个 类 簇 中心 ; 然后 计算 各 个 数据 对 象 到 聚 类 中 心 的 距离 ,把 数据 
对 象 划分 至 距离 其 最 近 的 聚 类 中 心 所 在 的 类 簇 中 ; 接着 根据 所 得 类 簇 更 新 类 簇 中 
心 : 然后 继续 计算 各 个 数据 对 象 到 聚 类 中 心 的 距离 ,把 数据 对 象 划 分 至 距离 其 最 近 
的 聚 类 中 心 所 在 的 类 簇 中 ; 接着 根据 所 得 类 簇 继续 更 新 类 簇 中 心 ; 一 直 迭 代 , 直 到 达 
到 最 大 迭代 次 数 TT, 或 者 两 次 迭代 JJ 的 差 值 小 于 某 一 阅 值 时 迭代 终止 ,得 到 最 终 聚 
类 结果 。 


2. K-Means 算法 的 Python 实现 
(1) 导入 需要 用 到 的 库 。 


# 导 入 需要 用 到 的 库 

import numpy as np 

import matplotlib. pyplot as plt 

from sklearn. cluster import KMeans 

from sklearn. datasets import make_blobs 


(2) 定义 一 个 读 取 文件 的 函数 ,方便 后 面 读 取 文件 。 


# 定 义 一 个 读 取 文件 的 函数 
def load data( input file): 
| 
with open( input_file, 'r') as f: 
for line in f. readlines(): 
data = [float(x) for x in line. split(', ')] 
X.append( data) 


return np. array(X) 
(3) 读 取 文件 ,并 定义 集群 的 数量 。 


# 读 取 文 件 
data = load_datal( 'F:\data\dataset\Chapter04\data_multivar. txt') 
num clusters=4 


(4) 将 文件 中 的 数据 可 视 化 展示 ,能 让 用 户 对 数据 有 一 个 直观 的 认识 。 


# 将 数据 可 视 化 表示 
plt. figure() 
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plt. scatter(data[ :,0]，data[ :,1]，marker= "ov 
facecolors = 'none', edgecolors= 'k', s= 30) 

x min, x max= min(data[:, 0]) — 1, max(data[:, 0]) + 1 

ynmin, y max= min(data[:, 1]) - 1, max(data[:, 1]) + 1 

plt.title( 'Input data') 

plt.xlim(x min, x max) 

plt. ylim(y min, y_ max) 

plt.xticks(()) 

plt. yticks(()) 

plt. show() 


运行 上 述 代 码 , 可 以 看 到 如 图 11. 2 所 示 的 聚 类 数据 分 布 图 。 


Input data 
o o 
o oo om 
oo 9 © 。 
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图 11.2 聚 类 数据 分 布 图 


(5) 下 面 训 练 模型 , 先 初始 化 一 个 K-Means 算法 模型 ,然后 训练 。 


kmeans = KMeans( init = 'k— meanst++', n_clusters = num_clusters，n_in 让 = 10) 
kmeans. fit(data) 


(6) 训练 完 之 后 对 边界 进行 可 视 化 处 理 。 


# 设 置 网 格 数据 的 步 长 


step_size=0.01 


# 画 出 边界 

x min, x max= min(data[:, 0]) - 1, max(data[:, 0]) + 1 

ymin, y max= min(data[:, 1]) — 1, max(data[:, 1]) + 1 

x values, y_ values = np. meshgrid(np.arange(x min, x max, step_ size), np.arange(y min, y_ 
max, step_size)) 


# 预 测 网 格 中 所 有 数据 点 的 标记 
predicted labels = kmeans. predict(np.c [x values.ravel(), y values. ravel()]) 


O 
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(7) 模型 训练 完成 之 后 将 结果 展示 出 来 ,并 将 聚 类 中 心 点 画 出 。 


# 夯 出 结果 

predicted labels = predicted labels. reshape(x values. shape) 

plt. figure() 

plt.clf() 

plt. imshow(predicted labels，interpolation = 'nearest'， 
extent = (x_values.min()，x_values.max()，yY_values.min()，Y_values.max( ) )， 
cmap = plt. cm. Paired, 
aspect = 'auto', origin = 'lower') 


plt. scatter(data[ :,0], data[:,1], marker = "ov 
facecolors = 'none', edgecolors= 'k', s= 30) 

centroids = kmeans. cluster_ centers_ 

plt. scatter(centroids[ :,0], centroids[:,1], marker = '0', s= 200, linewidths = 3, 
color = 'k', zorder = 10, facecolors= 'black') 

x min, x max= min(data[:, 0]) - 1, max(data[:, 0]) + 1 

ymin, y max= min(data[:, 1]) - 1, max(data[:, 1]) + 1 

plt. titlel( 'Centoids and boundaries obtained using KMeans') 

plt.xlim(x min, x max) 

plt. ylim(y min, y_max) 

plt. xticks(()) 

plt. yticks(()) 

plt. show() 


运行 代码 ,展示 结果 如 图 11. 3 所 示 。 
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图 11.3 K-Means 输出 结果 
3. K-Means 算法 的 评价 


算法 总 结 : K-Means 算法 虽然 比较 简单 ,但 也 有 几 个 比较 大 的 缺点 。 

(1) K 值 的 选择 是 用 户 指定 的 ,不 同 的 KK 得 到 的 结果 会 有 很 大 的 不 同 ,导致 算法 
效果 存在 一 定 的 随机 性 。 因 此 在 应 用 算法 前 可 考虑 使 用 可 视 化 手段 大 致 判断 聚 类 簇 
的 数量 ,或 多 尝试 不 同 的 K 值 ,比较 并 确定 一 个 更 为 合理 的 结果 。 
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(2) K-Means 算法 对 于 球形 徐 有 较 好 的 聚 类 效果 ,而 对 于 非 球形 簇 的 效果 较 差 。 
例如 对 于 图 11.4(a) 中 的 数据 对 象 来 说 ,其 分 布 是 典型 的 条 状 线性 分 布 ,合理 的 聚 类 
结果 应 如 图 11. 4(b) 所 示 ,分 为 黑白 两 能 ,而 若 使 用 K-Means 算法 , 则 聚 类 将 极 可 能 
是 如 图 11.4(c) 所 示 的 结果 ,与 我 们 所 设想 的 结果 大 相 径 庭 。 因 此 , 若 已 知 待 聚 类 对 
象 是 非 球形 簇 分 布 ,应 考虑 使 用 其 他 聚 类 方法 ,如 11. 2. 3 节 中 将 介绍 的 基于 密度 的 
算法 。 
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图 11.4 ， 非 球形 焦 示 例 

(3) K-Means 算法 对 K 个 初始 质心 的 选择 比较 敏感 ,容易 陷 人 局 部 最 小 值 。 例 
如 ,如 果 初 始 聚 类 中 心 较为 接近 , 选 在 同一 个 聚 类 复 上 ,结果 必然 与 理论 上 的 合理 值 
相 异 。 有 一 些 改进 的 K-Means 算法 在 尝试 解决 这 样 的 问题 ,这 类 算法 通常 对 初始 中 
心 点 的 选取 比较 严格 ,各 中 心 点 的 距离 较 远 , 这 就 避免 了 初始 聚 类 中 心 会 选 到 一 个 类 
上 ,在 一 定 程度 上 克服 了 算法 陷入 局 部 最 优 状态 。 

二 分 K-Means(Bisecting K-Means) 算 法 是 其 中 一 种 ,其 主要 思想 是 首先 将 所 有 
点 作为 一 个 簇 ,然后 将 该 簇 一 分 为 二 。 之 后 选择 能 最 大 限度 降低 聚 类 代价 函数 (也 就 
是 误差 平方 和 ) 的 得 划分 为 两 个 簇 。 以 此 进行 下 去 ,直到 簇 的 数目 等 于 用 户 给 定 的 数 
目 K 为 止 。 以 上 隐 含 的 一 个 原则 是 : 因为 聚 类 的 误差 平方 和 能 够 衡量 聚 类 性 能 ,该 
值 越 小 表示 数据 点 越 接近 于 它们 的 质心 , 聚 类 效果 就 越 好 。 所 以 需要 对 误差 平方 和 
最 大 的 簇 进行 再 一 次 划分 ,因为 误差 平方 和 越 大 ,表示 该 簇 聚 类 效果 越 不 好 , 越 有 可 
能 是 多 个 簇 被 当成 了 一 个 簇 ,首先 需要 对 这 个 簇 进 行 划 分 。 下 面 是 二 分 K-Means 聚 
类 的 伪 代 码 : 

初始 化 :所 有 点 作为 一 个 能 

IF 簇 的 数目 小 于 K 

FOR 每 一 个 入 


计算 总 误差 
在 给 定 的 簇 上 进行 K- Means 聚 类 (K= 2) 
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计算 二 分 后 的 总 误差 
选择 使 误差 最 小 的 徐 进 行 划 分 


11.2.3 DBSCAN 算法 


1. 算法 简介 


DBSCAN(Density-Based Spatial Clustering of Applications with Noise, 具 有 了 品 
声 的 基于 密度 的 聚 类 方法 ) 是 典型 的 基于 密度 的 聚 类 算法 。 与 K-Means 算法 相 比 ， 
DBSCAN 算法 在 执行 之 初 不 需要 预先 指定 聚 类 簇 的 个 数 。 当 然 ,最 终 的 聚 类 簇 个 数 
在 结果 出 来 之 前 也 就 不 得 而 知 了 。 

DBSCAN 算法 的 优点 是 聚 类 速度 快 .能 够 有 效 处 理 噪声 点 以 及 聚 类 簇 的 形状 没 
有 偏 倚 。 其 缺点 是 当 数 据 量 增 大 时 ,要 求 较 大 的 内 存 支持 ,1/O 消耗 也 很 大 ,同时 当 
空间 聚 类 的 密度 不 均匀 、 聚 类 间距 差 相 差 很 大 时 聚 类 质量 较 差 。 

既然 是 基于 密度 的 聚 类 ,这 里 有 必要 给 出 与 密度 相关 的 一 些 定义 ,以 便 后 续 讨 论 

具体 算法 。 

。 e- 邻 域 : 给 定 对 象 O 半径 s 内 的 区 域 称 为 该 对 象 的 e- 邻 域 。 

。 核心 对 象 : 如 果 给 定 对 象 的 e- 邻 域内 的 样本 点 数 大 于 或 等 于 MinPts, 则 称 该 
对 象 为 核心 对 象 。MinPts 为 人 为 预先 指定 的 阔 值 参数 。 

。 直接 密度 可 达 : 给 定 一 个 对 象 集合 D, 如 果 p 在 qd 的 e 邻 域内 , 且 q 是 一 个 
核心 对 象 , 则 说 对 象 p 从 对 象 q 出 发 是 直接 密度 可 达 的 。 显 然 ,对 象 p 是 从 
另 一 个 对 象 qa 直接 密度 可 达 的 , 当 且 仅 当 q 是 核心 对 象 ,并 且 p 在 q 的 e 邻 
域 中 。 

。 密度 可 达 : 对 于 样本 集合 D, 如 果 存 在 一 个 对 象 链 pi , ps,… ,ps ,使 得 pi 二 q， 
pn 一 p, 并 且 pi;E€ D(1<i<n), 那 么 pi+1 是 从 pi 关于 se 和 MinPts 直接 密度 可 
达 的 。 

。 密度 相连 : 如 果 存 在 对 象 dED, 使 对 象 p 和 p: 都 是 从 qd 关于 s 和 MinPts 密 
度 可 达 的 ,那么 对 象 p .ps 是 关于 e 和 MinPts 密度 相连 的 。 

有 了 上 述 概念 ,就 可 以 对 DBSCAN 聚 类 进行 定义 了 : 由 密度 可 达 关 系 导出 的 最 

大 密度 相连 的 样本 集合 即 为 最 终 聚 类 簇 。 
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这 个 DBSCAN 的 簇 里 面 可 以 有 一 个 或 者 多 个 核心 对 象 。 如 果 只 有 一 个 核心 对 
象 , 则 簇 里 其 他 的 非 核心 对 象 样本 都 在 这 个 核心 对 象 的 s- 邻 域 里 ; 如 果 有 多 个 核心 对 
象 , 则 簇 里 的 任意 一 个 核心 对 象 的 e 邻 域 中 一 定 有 一 个 其 他 的 核心 对 象 , 否 则 这 两 个 
核心 对 象 无 法 密度 可 达 。 这 些 核 心 对 象 的 e- 邻 域 里 所 有 样本 的 集合 组 成 一 个 
DBSCAN 聚 类 艇 。 

那么 怎么 才能 找到 这 样 的 簇 样本 集合 呢 ? DBSCAN 使 用 的 方法 很 简单 , 它 任意 
选择 一 个 没有 类 别 的 核心 对 象 作为 种 子 ,然后 找到 所 有 这 个 核心 对 象 能 够 密度 可 达 
的 样本 集合 , 即 为 一 个 聚 类 簇 。 接 着 继续 选择 另 一 个 没有 类 别 的 核心 对 象 去 寻找 密 
度 可 达 的 样本 集合 ,这 样 就 得 到 另 一 个 聚 类 艇 。 一 直 运 行 到 所 有 核心 对 象 都 有 类 别 
为 止 。 

此 外 ,对 于 DBSCAN 算法 有 3 个 问题 需要 注意 。 

第 一 个 是 一 些 异 常 样本 点 或 者 说 少量 游离 于 簇 外 的 样本 点 ,这 些 点 不 在 任何 一 
个 核心 对 象 的 周围 ,在 DBSCAN 中 ,一 般 将 这 些 样本 点 标记 为 噪音 点 。 

第 二 个 是 距离 的 度量 问题 , 即 如 何 计算 某 样本 和 核心 对 象 样本 的 距离 。 在 
DBSCAN 中 ,一 般 采 用 最 近邻 思想 ,采用 某 一 种 距离 度量 来 衡量 样本 距离 ,例如 欧式 
距离 。 

第 三 个 问题 比较 特殊 , 某 些 样 本 到 两 个 核心 对 象 的 距离 可 能 都 小 于 s, 但 是 这 两 
个 核心 对 象 由 于 不 是 密度 直达 ,又 不 属于 同一 个 聚 类 簇 ,那么 如 何 界定 这 个 样本 的 类 
别 呢 ? 一 般 来 说 ,此 时 DBSCAN 采用 先 来 后 到 ,先进 行 聚 类 的 类 别 簇 会 标记 这 个 样 
本 为 它 的 类 别 。 也 就 是 说 ,DBSCAN 算法 不 是 完全 稳定 的 算法 。 

下 面 给 出 DBSCAN 的 伪 代 码 : 


输入 : 
D: 一 个 包含 n 个 对 象 的 数据 集 
:半径 参数 
MinPts: 邻 域 密度 阔 值 

输出 :基于 密度 的 簇 的 集合 

方法 : 

标记 所 有 对 象 为 unvisited; 

Do 


随机 选择 一 个 unvisited 对 象 p; 

标记 p 为 visited 

IF p 的。 邻 域 至 少 有 MinPts 个 对 象 
创建 一 个 新 能 C, 并 把 p 添 加 到 C 
令 N 为 的 s- 邻 域 中 的 对 象 的 集合 : 
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FOR N 中 的 每 个 点 p' 
IF p' 是 unvisited 
标记 p 为 visited 
IF p' 的 s- 邻 域 至 少 有 MinPts 个 点 ,把 这 些 点 添加 到 N 
IF p' 还 不 是 任何 簇 的 成 员 , 把 p' 添 加 到 C; 
END FOR 
输出 C; 
ELSE 标记 p 为 噪声 ; 
UNTIL 没有 标记 为 unvisited 的 对 象 


2. DBSCAN 算法 的 Python 实现 


在 Scikit-learn 库 中 已 经 集成 有 DBSCAN 算法 的 实现 ,具体 由 cluster 模块 中 的 
DBSCAN 类 进行 处 理 。DBSCAN 类 的 初始 化 需要 最 多 8 个 参数 ( 均 为 可 选 参数 ) ,其 
中 几 个 比较 重要 的 参数 如 下 。 

(1) eps: 同一 个 簇 中 样本 的 最 大 距离 ,默认 为 0.5。 一 般 需 要 在 多 组 值 里 面 选择 
一 个 合适 的 阔 值 。 如 果 eps 过 大 ,更 多 的 点 会 落 在 核心 对 象 的 =- 邻 域 ,此 时 类 别 数 可 
能 会 减少 ,本 来 不 应 该 是 一 类 的 样本 也 会 被 划 为 一 类 。 反 之 ,类 别 数 可 能 会 增 大 ,本 
来 是 一 类 的 样本 却 被 划分 开 。 

(2) min_samples: 一 个 簇 中 至 少 需要 包含 的 样本 数 , 默 认为 5。 一般 需要 在 多 组 
值 里 面 选 择 一 个 合适 的 阔 值 。 它 通常 和 eps 一 起 调 参 。 在 eps 一 定 的 情况 下 ,如 果 
min_samples 过 大 , 则 核心 对 象 会 过 少 , 此 时 簇 内 部 分 本 来 是 一 类 的 样本 可 能 会 被 标 
为 噪音 点 ,类 别 数 也 会 变 多 。 反 之 ,如 果 min_samples 过 小 , 则 会 产生 大 量 的 核心 对 
象 ,可 能 会 导致 类 别 数 过 少 。 

(3) metric: 距离 公式 ,用 户 可 以 用 默认 的 欧式 距离 ,还 可 以 自己 定义 距离 函数 。 

(4) algorithm: 最 近邻 搜索 算法 参数 ,可 选 值 包括 auto、ball_tree\kd_tree、brute, 默 
认为 auto。 在 可 选 值 中 ,brute 是 蛮 力 实现 ,kd_tree 是 KD 树 实现 ,ball_tree 是 球 树 实现 ， 
auto 则 会 在 3 种 算法 中 做 权衡 ,选择 一 个 拟 合 最 好 的 最 优 算 法 。 在 一 般 情况 下 使 用 默 
认 的 'auto' 就 够 了 。 如 果 数 据 量 很 大 或 者 特征 很 多 ,用 'auto' 建树 时 间 可 能 会 很 长 , 效 
率 不 高 ,建议 选择 KD 树 实现 'kd_tree', 此 时 如 果 发 现 'kd_tree' 速度 比较 慢 或 者 已 经 知 
道 样本 分 布 不 是 很 均匀 ,可 以 尝试 用 'ball_tree'。 如 果 输 入 样本 是 稀 玻 的 ,无 论 选择 哪 
个 算法 ,最 后 实际 运行 的 都 是 'brute'。 

关于 DBSCAN 的 使 用 代码 如 下 : 


| 第 11 章 “机 器 学 习 一 一 无 监督 学 习 (285 
-OO 


import numpy as np 


from sklearn. cluster import DBSCAN 

from sklearn import metrics 

from sklearn. datasets. samples_generator import make blobs 
from sklearn. preprocessing import StandardScaler 


# 生 成 示例 数据 

centers=[[1, 1], [-1, -1], [1, -1]] 

X, labels true= make blobs(n_samples= 750, centers= centers, cluster std=0.4, 
random state= 0) 

X= StandardScaler().fit transform(X) 


#DBSCRN 聚 类 

db = DBSCAN(eps = 0.3, min samples=10).fit(X) 
core_samples_mask = np. zeros_like(db. labels_, dtype= bool) 
core_samples_mask[ db. core sample indices ] = True 

labels = db. labels_ 


n_clusters_= len(set(labels)) -~ (1 if -1 in labels else 0) 
n_noise = list(labels).count( 一 1) 


print( 'Estimated number of clusters: %d'% n clusters ) 
print( 'Estimated number of noise points: %d' % n noise ) 


# 结 果 可 视 化 
import matplotlib. pyplot as plt 


unique labels= set(labels) 
colors = [plt. cm. Spectral(each) 
for each in np. linspace(0, 1, len(unique labels))] 
for k, col in zip(unique labels, colors): 
if k==— 
# Black used for noise. 
col= [0, 0, 0, 1] 


class_member mask = (labels ==k) 


xy= X[class_member mask & core_samples_mask] 
plt. plot(xy[ :, 0], xy[:, 1], 'o', markerfacecolor = tuple(col), 
markeredgecolor = 'k', markersize = 14) 


xy= X[class member mask & ~core samples mask] 
plt. plot(xy[ :, 0], xy[:, 1], 'o', markerfacecolor = tuple(col), 
markeredgecolor = k', markersize= 6) 


plt. title( 'Estimated number of clusters: %d' % n clusters ) 
plt. show() 
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代码 运行 的 结果 如 图 11. 5 所 示 。 


Estimated number of clusters: 3 


图 11.5 DBSCAN 聚 类 结果 


11.3 关联 规则 


11.3.1 关联 分 析 


关联 分 析 最 早 来 源 于 购物 篮 分 析 。 对 超市 的 管理 者 来 说 ,一 个 重要 的 信息 是 顾客 
在 一 次 购物 中 会 同时 购买 何 种 商品 ,一 旦 知悉 该 信息 ,那么 在 产品 促销 \ 商 品 摆 放 、 商 品 
进货 等 决策 环节 便 可 做 到 有 的 放 矢 。 一 个 典型 的 案例 便 是 “尿布 与 啤酒 ”的 故事 : 美国 
一 家 超市 在 对 其 原始 交易 数据 进行 数据 挖掘 时 意外 地 发 现 ,在 购买 记录 中 尿布 与 啤酒 
这 两 种 截然 不 同 的 商品 竟然 经 常 被 一 起 购买 ! 后 来 经 过 调查 和 分 析 才 发 现 这 其 中 蕴 
含 着 一 种 美国 人 的 行为 模式 , 即 先 生 们 在 下 班 时 会 被 太太 要 求 去 超市 为 小 孩 购买 
尿布 ,而 先生 们 在 购买 尿布 之 后 又 会 顺手 购买 自己 喜爱 的 啤酒 。 根 据 这 个 信息 , 超 
市 便 大 可 将 尿布 与 啤酒 的 货架 摆 放 得 尽 可 能 近 , 又 可 在 促销 策略 中 将 两 种 商品 进 
行 捆绑 销售 。 

关联 分 析 的 主要 目的 即 是 从 大 量 数据 中 发 现 事物 之 间 有 趣 的 关联 和 相关 联系 。 
以 表 11. 1 为 例 ,在 这 里 把 顾客 的 每 一 次 交易 称 为 一 个 “事务 ”, 记 为 ; 把 所 有 事务 的 
总 和 称 为 事务 集 ”, 记 为 D, 表 11. 1 中 的 事务 集 共有 5 个 事务 ; 把 每 一 种 商品 称 为 一 
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个 “项 ”, 记 为 I; 把 包含 多 个 项 的 集合 称 为 “项 集 ”, 在 一 个 项 集 里 可 以 有 一 个 项 、 多 个 
项 ,甚至 零 个 项 。 一 般 的 , 若 一 个 项 集中 有 k 个 项 , 则 称 此 项 集 为 k 项 集 , 例 如 项 集 
{ 鸡 蛋 } 是 1 项 集 , 项 集 { 鸡 蛋 , 番 茄 } 是 2 项 集 , 表 11. 1 所 示 的 例子 中 共有 1 个 2 项 集 ， 
4 个 4 项 集 。 某 个 项 集 在 整个 事务 集中 出 现 的 次 数 被 称 为 项 集 的 “出 现 频 度 ”, 在 某 些 
文献 中 也 简称 为 频 度 或 计数 。 若 某 个 项 集 在 事务 集中 频繁 出 现 , 该 项 集 就 值得 引起 
注意 。 例 如 在 表 11. 1 中 ,项 集 { 鸡 蛋 } 的 频 度 为 4, 而 项 集 { 鸡 蛋 , 番 茄 } 的 频 度 为 3。 


表 11.1 某 菜市 场 交易 清单 示例 


编 号 商 品 编 号 商 品 
1 鸡蛋 ,番茄 ,白菜 ,萝卜 4 鸡蛋 ,猪肉 , 鱼 ,番茄 
2 猪肉 ,萝卜 , 鱼 , 葱 5 鸡蛋 , 葱 
3 鸡蛋 ,猪肉 ,番茄 ,白菜 


关联 分 析 中 的 一 个 主要 概念 是 关联 规则 ,这 是 一 个 形 如 X-~~Y 的 蕴含 式 ,X 和 了 
分 别 为 一 个 项 集 , 其 中 X 称 为 关联 规则 的 先导 ,Y 称 为 关联 规则 的 后 继 。 直 观 地 理解 
就 是 : 当 X 被 购买 时 ,Y 也 “可 能 ”同时 被 购买 。 例 如 关联 规则 “尿布 啤酒 ”表示 购 
买 尿 布 的 人 也 同时 会 购买 啤酒 。 值 得 注意 的 是 关联 规则 有 先后 顺序 之 分 ,购买 尿布 
的 人 也 会 顺便 购买 啤酒 ,但 是 购买 啤酒 的 人 并 不 一 定 会 购买 尿布 。 另 外 ,关联 规则 的 
后 继 是 “可 能 ?发 生 , 这 里 的 可 能 性 反映 了 该 关联 规则 的 强 弱 ,通常 我 们 只 对 那些 “很 
可 能 ?发 生 ( 或 者 说 频繁 发 生 ) 的 关联 规则 感 兴趣 。 有 两 个 常用 指标 用 来 指示 一 个 关 
联 规则 的 强 弱 , 即 支持 度 C(Support) 和 置信 度 (Confidence) 。 

支持 度 表 示 关 联 规则 X->Y 中 X 和 YY 在 事务 集 D 中 同时 出 现 的 概率 , 即 ， 

support(X— Y) = P(X NM Y) 

例如 某 超 市 总 共有 100 人 购买 了 商品 ,其 中 20 人 同时 购买 了 牛肉 和 牛奶 , 则 牛 
肉 一 牛奶 和 牛奶 一 牛肉 的 支持 度 均 为 0.2。 在 表 11. 1 所 示 的 例子 中 ,鸡蛋 一 番茄 的 
支持 度 为 3/5。 由 其 定义 可 知 ,对 于 支持 度 来 说 ,其 规则 的 先导 和 后 继 没 有 顺序 要 求 ， 
X-~Y 和 Y-~X 的 支持 度 总 是 相等 ,因此 支持 度 也 可 针对 项 集 而 言 , 即 项 集 的 支持 度 
定义 为 项 集中 各 项 同时 出 现 的 概率 。 若 某 项 集 的 支持 度 足 够 大 ,例如 大 于 某 个 我 们 
预先 定义 的 阔 值 (至 于 该 阔 值 到 底 定 为 多 少 较 为 合理 ,取决 于 数据 和 应 用 的 实际 情 
况 , 应 由 分 析 人 员 基 于 此 根据 经 验 其 柄 而 定 ), 则 将 该 项 集 称 为 “频繁 项 集 ”。 

置信 度 是 针对 一 条 关联 规则 来 定义 的 ,关联 规则 X 一 Y 的 置信 度 是 事务 集 D 中 
包含 X 的 同时 也 包含 Y 的 概率 , 即 X 被 购买 的 条 件 下 Y 也 被 购买 的 概率 ,如 下 : 
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confidence(X 一 Y) = P(Y | X) 

在 表 11.1 所 示 的 示例 中 ,番茄 一 鸡蛋 的 置信 和 度 为 1, 即 所 有 买 番茄 的 人 最 终 都 同 
时 买 了 鸡蛋 ,而 鸡蛋 一 番茄 的 置信 度 为 3/4, 即 在 4 个 买 鸡蛋 的 人 中 有 3 人 买 了 番茄 。 
因此 ,如 果 已 知 某 人 买 了 番茄 , 则 可 以 推 想 该 人 有 极 大 可 能 (接近 100%) 想 要 购买 鸡 
蛋 , 若 已 知 某 人 已 买 鸡蛋 , 则 其 有 较 大 可 能 (接近 75% ) 想 要 购买 番茄 。 

如 果 人 为 设 定 一 个 最 小 支持 度 和 最 小 置信 度 阔 值 , 一 旦 某 条 关联 规则 的 支持 度 
和 置信 度 同 时 达到 阔 值 , 则 称 其 为 强 规则 。 例 如 将 最 小 支持 度 阔 值 设 为 0. 5 ,将 最 小 
置信 度 阔 值 设 为 0.8, 则 番茄 ~ 鸡蛋 显然 是 一 条 强 关 联 规则 ,而 强 关 联 规则 很 大 可 能 
是 “有趣 的 关联 关系 。 

关联 规则 的 挖掘 实际 上 就 是 计算 事务 集中 各 个 规则 的 支持 度 和 置信 和 度 , 找 到 两 
者 足够 大 的 规则 , 即 提取 强 关 联 规则 。 而 由 条 件 概率 公式 ,有 : 


P(X ON DD 
P(X) 


support(X NY) _ count (XN Y) 
support(X) count(X) 


可 知 , 若 要 计算 关联 规则 X~~Y 的 置信 度 , 归 根 结 底 是 计算 项 集 {X,Y} 和 项 集 
{X} 的 支持 度 , 而 支持 度 的 计算 归根 结 底 是 计算 项 集 的 频 度 。 因 此 ,关联 规则 的 挖掘 
最 终归 结 于 发 现 频繁 项 集 。 那 么 如 何 发 现 频 繁 项 集 呢 ?最 简 答 的 方法 莫 过 于 针对 一 
个 事务 集中 的 所 有 项 ,基于 排列 组 合生 成 所 有 可 能 的 项 集 ,对 每 一 个 项 集 统计 其 出 现 
次 数 , 从 而 掌握 其 频繁 程度 。 但 是 该 方法 的 缺陷 也 十 分 明显 ,就 是 当 事 务 集 的 项 数 太 
多 时 , 频 度 计算 的 计算 量 将 极其 庞大 。 例 如 , 若 商店 有 100 种 商品 (事实 上 一 般 商 店 
的 商品 数 远 超过 该 数字 ) , 则 这 些 商品 可 能 的 项 集 组 合约 有 1. 26X10” 种 之 多 ,即使 
是 现代 的 计算 机 ,对 于 这 样 的 计算 量 仍然 需要 很 长 时 间 才 能 够 完成 。 

事实 上 ,所 有 关联 规则 挖掘 算法 的 核心 目的 都 是 如 何 降低 计算 量 , 以 便 在 合理 的 
可 接受 的 时 间 内 得 到 结果 。 接 下 来 介绍 两 种 常用 的 关联 规则 挖掘 算法 一 一 Apriori 
算法 和 FP-growth 算法 。 


confidence(X — Y)= P(Y | X) 


11.3.2 Apriori 算法 


1. 算法 简介 


ee 


Apriori 这 个 词 本 身 是 “ 先 验 ”的 意思 。 在 定义 和 解决 问题 时 ,有 时 会 ”视频 讲解 
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基于 一 些 已 知 的 知识 或 假设 ,以 便 简 化 问题 。Apriori 算法 就 使 用 了 一 条 先 验 知识 ， 
从 而 在 计算 频繁 项 集 时 大 大 缩减 了 计算 量 。 那 么 什么 是 先 验 知识 呢 ? 该 条 先 验 知识 
的 表述 是 : 若 某 个 项 集 是 频繁 的 ,那么 它 的 所 有 子 集 也 是 频繁 的 。 例 如 若 项 集 { 鸡 
蛋 , 番 茄 } 是 频繁 项 集 , 即 同时 购买 鸡蛋 和 番茄 的 人 很 多 ,那么 购买 鸡蛋 或 番茄 的 人 数 
必然 更 多 (因为 这 些 人 中 既 包 含 了 同时 购买 鸡蛋 番茄 的 人 ,也 包括 了 只 购买 鸡蛋 或 番 
茄 的 人 ) ,因此 { 鸡 蛋 } 和 !{ 番 茄 } 必 然 也 是 频繁 项 集 。 这 条 先 验 知识 被 称 为 Apriori 原理 。 

该 原理 直观 上 似乎 对 寻找 频繁 项 集 无 用 ,但 是 其 反 过 来 的 说 法 就 大 有 用 处 了 : 
若 一 个 项 集 是 非 频繁 项 集 , 则 其 所 有 超 集 必 是 非 频繁 项 集 。 例 如 若 { 鸡 蛋 } 是 非 频 繁 
项 集 , 即 购买 鸡蛋 的 人 本 就 不 多 ,那么 所 有 包括 了 鸡蛋 这 一 商品 的 项 集 (例如 同时 购 
买 鸡蛋 和 番茄 ) 必 然 更 少 ,因此 不 管 是 { 鸡 蛋 , 番 茄 } 还 是 { 鸡 蛋 , 番 茄 , 猪 肉 } 等 都 是 非 
频繁 的 了 。 在 计算 各 项 集 频 度 时 , 若 发 现 鸡蛋 是 非 频繁 的 ,那么 所 有 包括 了 鸡蛋 的 项 
集 都 不 用 再 去 计算 了 。 使 用 该 原理 就 可 以 避免 项 集 数目 的 指数 级 增长 ,从 而 在 合理 
的 时 间 内 计算 出 频繁 项 集 。 

关联 规则 的 分 析 大 致 分 为 两 步 , 即 发 现 频繁 项 集 , 计 算 置 信 度 从 而 发 现 强 关联 规 
则 ,其 中 发 现 频繁 项 集 是 关键 步骤 。Apriori 是 发 现 频繁 项 集 的 一 种 算法 ,该 算法 需 
要 两 个 参数 一 一 最 小 支持 度 阔 值 和 输入 数据 集 。 该 算法 首先 会 生成 所 有 1 项 集 的 列 
表 , 接 着 扫描 整个 事务 集 来 判断 哪些 项 集 满足 最 小 支持 度 阔 值 , 将 不 满足 的 项 集 去 
除 。 然 后 对 剩 下 来 的 1 项 集 进 行 排列 组 合生 成 2 项 集 ,再 重新 扫描 事务 集 ,去掉 不 满 
足 最 小 支持 度 的 2 项 集 。 该 过 程 不 断 重 复 , 直 到 不 再 有 可 能 的 频繁 项 集 可 以 构建 。 
该 过 程 的 伪 代 码 如 下 : 

FOR 数据 集中 每 条 事务 了 

FOR 每 个 候选 项 集 I: 

IFI 是 否 T 的 子 集 
增加 工 的 计数 值 
FOR 每 个 候选 项 集 : 
亚 其 支持 度 不 低 于 最 小 支持 度 阔 什 


保留 该 项 集 
返回 所 有 频繁 项 集 列表 


2. Apriori 算法 的 Python 实现 


由 于 Scikit-learn 中 并 没有 集成 Apriori 算法 ,这 里 需要 使 用 Python 从 底层 实 
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def loadDataSet( ): 
reborn lil 3 al [2 3 Sl El 2 3 L253 


def createCl(dataSet) : 
C1=[] 
for transaction in dataSet: 
for item in transaction: 
if not [item] in C1: 
Cl1.append( [item]) 
C1. sort() 
return list(map(frozenset, C1)) 


def scanD(dataset, Ck, minSupport) : 
D= map(set, dataset) 
ssCnt = {} 
for tid in D: 
for can in Ck: 
if can. issubset(tid) : 
if not can in ssCnt: 
ssCnt[can] = 1 
else: ssCnt[can] += 1 
numItems = float(len(dataset) ) 
retList= [] 
supportData = {} 
for key in ssCnt: 
support = ssCnt[key]/numItems 
if support > = minSupport: 
retList. insert(0, key) 
SupportData[key] = support 
return retList, supportData 


上 述 代码 创建 了 3 个 辅助 函数 ,其 中 loadDataSet() 创 建 一 个 简单 的 数据 集 用 于 
测试 算法 结果 。createC1() 用 于 从 原始 事务 集中 创建 1 项 集 。 方 法 流程 是 首先 构建 
一 个 空 集合 Cl , 接 下 来 遍历 事务 集中 的 所 有 事务 ,记录 其 中 的 每 一 个 项 ,如 果 某 个 项 
没有 在 Cl 中 出 现 , 则 以 该 项 构建 一 个 列表 ,添加 到 Cl 中 ,之 所 以 每 个 项 单独 构建 一 
个 列表 ,是 为 了 将 来 能 够 做 集合 操作 。scanD() 用 于 扫描 事务 集 , 并 从 候选 项 集中 挑 
选 出 满足 最 小 支持 度 阔 值 的 项 集 作 为 频繁 项 集 将 其 返回 ,同时 返回 的 还 有 最 频繁 项 
集 的 支持 度 ,该 值 在 后 面 步骤 中 会 使 用 到 。 
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下 面 测 试 一 下 代码 : 


>>> dataSet = loadDataSet() 
>>> dataSet 
[[1, 3, 4], [2, 3, 5], [1, 2, 3, 5], [2, 5]] 


>>> C1 = createCl (dataSet) 
>>> C1 
[frozenset({1}), frozenset({2}), frozenset({3}), frozenset({4}), frozenset({5})] 


>>> L1, suppData0 = scanD(dataSet, C1, 0.5) 
>>> L1 
[frozenset({5}), frozenset({2}), frozenset({3}), frozenset({1})] 


可 见 ,对 于 1 项 集 来 说 ,车 将 最 小 支持 度 设 为 0.5, 则 {1}、{2}、{3)、{5) 4 项 的 出 
现 概率 均 超过 半数 ,因此 均 为 频繁 1 项 集 ; 而 (4) 仅 在 两 个 事务 中 出 现 ,未 超过 半数 ， 
为 非 频 繁 项 集 。 

接 下 来 考虑 完整 的 Apriori 算法 , 伪 代 码 如 下 : 


IE 集合 中 项 的 个 数 大 于 0: 
构建 一 个 候选 k 项 集 列表 
确认 每 个 项 集 都 是 频繁 的 
保留 频繁 项 集 并 构建 候选 x+ 1 项 集 列表 


具体 的 Python 实现 如 下 : 


def aprioriGen(Lk, k): 
retList=[] 
lenLk = len(Lk) 
for i in range(lenLk) : 
for j in range(i+1, lenLk): 
L1 = list(Lk[i])[:k-2]; L2=1ist(Lk[j])[:k—2] 
L1. sort( ); L2. sort() 
if Ll ==12: 
retList.append(Lk[i] | Lk[j]) 
return retList 


def apriori(dataSet, minSupport = 0.5): 
Cl = createCl(dataSet) 
L1，supportData = scanD(dataSet，C1，minSupport) 
L=[L1] 
k=2 
while (len(L[k 一 2]) > 0): 
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Ck = aprioriGen(L[k— 2], k) #Ck 
Lk, supK= scanD(dataSet, Ck, minSupport) 
supportData. update( supK) 

L.append(Lk) 

k +=1 


return L, supportData 


其 中 ,aprioriGen() 函 数 用 于 创建 候选 集 ,其 输入 参数 为 一 个 频繁 项 集 列 表 Lk 和 
项 集 元 素 个 数 k, 例 如 若 输入 列表 1,2,3, 并 将 k 设 为 2, 则 返回 (1,2}、{1,3)、{2,3} 
3 个 项 集 。apriori() 函数 则 用 于 执行 具体 的 Apriori 算法 。 该 函数 需要 输入 一 个 数据 
集 ,并 给 定 最 小 支持 度 阔 值 ( 若 没有 , 则 默认 为 0.5) ,执行 算法 后 返回 所 有 的 频繁 
项 集 。 

下 面 测 试 一 下 代码 效果 : 

>>> L, suppData = apriori(dataSet) 

>>L 


[[frozenset({5}), frozenset({2}), frozenset({3}), frozenset({1})], [frozenset({2, 3}), 
frozenset({3, 5}), frozenset({2, 5}), frozenset({1, 3})], [frozenset({2, 3, 5})], []] 


计算 结果 L 中 包含 了 所 有 的 频繁 项 集 ,也 可 单独 查看 k 项 集 : 


>>> L[0] 
[frozenset({5}), frozenset({2}), frozenset({3}), frozenset({1})]>>> L[1] 


>>> L[2] 
[frozenset({2, 3}), frozenset({3, 5}), frozenset({2, 5}), frozenset({1, 3})] 


>>> L[3] 
[frozenset({2, 3, 5})] 


如 果 要 修改 最 小 支持 度 阔 值 ,可 将 该 值 作 为 第 二 个 参数 传递 给 apriori() 函 数 : 


>>> L, suppData = apriori(dataSet, minSupport = 0.7) 
>>L 
[[frozenset({5}), frozenset({2}), frozenset({3})], [frozenset({2, 5})], []] 


到 此 为 止 已 经 可 以 从 原始 事务 集中 挖掘 出 频繁 项 集 了 , 接 下 来 的 工作 是 从 中 提 
取出 关联 规则 。 


def generateRules(L, supportData, minConf = 0.7) : 
bigRuleList =[] 
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for i in range(1, len(L)): 
for freqSet in L[i]: 
H1 = [frozenset([ item]) for item in freqSet] 


和 
rulesFromConseq(freqSet, H1, supportData, bigRuleList, minConf) 
else: 
calcConf (freqSet, H1, supportData, bigRuleList, minConf) # 调 用 函数 


return bigRuleList 


def calcConf (freqSet, H, supportData, brl, minConf = 0.7): 
prunedH= [] 
for conseq in H: 
conf = supportData[ freqSet]/supportData[ freqSet - conseq] 
if conf >= minConf: 
print (freqSet - conseq, '——>', conseq, 'conf:', conf) 
br1.append( (freqSet - conseq, conseq, conf)) 
PrunedH. append( conseq) 
return prunedH 


def rulesFromConseq(freqSet, H, supportData, brl, minConf = 0.7): 
m= len(H[0]) 
if (len(freqSet) > (m + 1)): 
Hmpl = aprioriGen(H, m+1) 
Hmpl = calcConf (freqSet, Hmpl, supportData, brl, minConf) 
if (len(Hmpl) > 1): 
rulesFromConseq(freqSet, Hmpl, supportData, brl, minConf) 


在 上 述 代 码 中 generateRules() 是 主 函 数 ,用 于 生成 关联 规则 ,需要 3 个 参数 , 即 
频繁 项 集 列表 、 包 含 频繁 项 集 支持 数据 的 字典 、 最 小 置信 度 阔 值 , 其 中 前 两 个 参数 可 从 
apriori() 函数 的 返回 值 中 获取 ,最 小 置信 度 阔 值 若 不 给 定 , 默 认为 0.7。calcConfO 〇 函数 
用 于 计算 置信 度 ,并 返回 一 个 满足 最 小 置信 度 要 求 的 规则 列表 。rulesFromConseq() 函 
数 用 于 从 最 初 的 项 集中 生成 更 多 的 关联 规则 。 

下 面 测试 代码 的 运行 效果 : 

>>> L, suppData = apriori(dataSet, minSupport = 0.5) 

>>> rules = generateRules(L, suppData, minConf = 0.7) 

frozenset({5}) -一 > frozenset({2}) conf: 1.0 

frozenset({2}) ——> frozenset({5}) conf: 1.0 

frozenset({1}) ——> frozenset({3}) conf: 1.0 


[(frozenset({5}), frozenset({2}), 1.0), (frozenset({2}), frozenset({5}), 1.0), 
(frozenset({1}), frozenset({3}), 1.0)] 


O 
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可 以 看 到 ,这 里 生成 了 3 条 强 关 联 规则 : 5 一 2、2 一 5、1 一 3,3 条 规则 的 置信 和 度 均 
为 1, 这 意味 着 只 要 出 现 5, 则 必然 出 现 2, 只 要 出 现 2, 则 必然 出 现 5, 只 要 出 现 1, 则 必 
然 出 现 3, 可 见 关联 规则 的 前 导 和 后 继 在 某 些 情况 下 可 互 换 , 在 某 些 情况 下 却 不 行 。 
若 将 最 小 置信 度 阔 值 降 低 ,例如 设 为 0.5, 可 获得 更 多 的 规则 : 


>>> L, suppData = apriori(dataSet, minSupport = 0.5) 

>>> rules = generateRules(L, suppData, minConf = 0.5) 

frozenset({3}) -- > frozenset({2}) conf: 0.6666666666666666 

frozenset({2}) ——> frozenset({3}) conf: 0.6666666666666666 

frozenset({5}) --> frozenset({3}) conf: 0.6666666666666666 

frozenset({3}) -一 > frozenset({5}) conf: 0.6666666666666666 

frozenset({5}) ——> frozenset({2}) conf: 1.0 

frozenset({2}) --> frozenset({5}) conf: 1.0 

frozenset({3}) -一 > frozenset({1}) conf: 0.6666666666666666 

frozenset({1}) --> frozenset({3}) conf: 1.0 

frozenset({5}) --> frozenset({2, 3}) conf: 0.6666666666666666 

frozenset({3}) --> frozenset({2, 5}) conf: 0.6666666666666666 

frozenset({2}) --> frozenset({3, 5}) conf: 0.6666666666666666 

[(frozenset({3}), frozenset({2}), 0.6666666666666666), (frozenset({2}), frozenset({3}), 
0.6666666666666666), (frozenset({5}), frozenset({3}), 0.6666666666666666), 
(frozenset({3}), frozenset({5}), 0.6666666666666666), (frozenset({5}), frozenset({2}), 
1.0), (frozenset({2}), frozenset({5}), 1.0), (frozenset({3}), frozenset({1}), 
0.6666666666666666), (frozenset({1}), frozenset({3}), 1.0), (frozenset({5}), 
frozenset({2, 3}), 0.6666666666666666), (frozenset({3}), frozenset({2, 5}), 
0.6666666666666666), (frozenset({2}), frozenset({3, 5}), 0.6666666666666666)] 


当然 ,在 现实 情况 中 ,即使 是 强 关联 规则 也 不 一 定 能 引起 人 们 的 兴趣 ,因为 有 可 
能 产生 一 些 显而易见 的 规则 ,需要 后 期 进行 人 工 筛选 。 一 旦 算法 产生 的 规则 过 多 ,后 
期 筛选 的 成 本 也 会 相应 提高 ,因此 最 小 置信 度 设 为 多 少 更 为 合理 需要 仔细 考虑 。 


11.3.3 FP-growth 算法 


1. 算法 简介 


上 一 节 学 习 的 Apriori 算法 通过 不 断 地 构造 候选 集 、 筛 选 候 选集 挖掘 出 频繁 项 
集 , 需 要 多 次 扫描 原始 数据 , 当 原 始 数据 较 大 时 ,磁盘 IO 次 数 太 多 ,效率 比较 低 。 
FP-growth 算法 是 基于 Apriori 原理 的 ,通过 将 数据 集 存储 在 FP(Frequent Pattern) 
树 上 发 现 频繁 项 集 ,但 不 能 发 现 数据 之 间 的 关联 规则 。FP-growth 算法 只 需要 对 数 


| 第 11 章 “机 器 学 习 一 无 监督 学 习 


据 库 进 行 两 次 扫描 ,而 Apriori 算法 在 求 每 个 潜在 的 频繁 项 集 时 都 需要 扫描 一 次 数据 
集 , 因 此 FP-growth 算法 相对 Apriori 算法 来 说 更 为 高 效 。 其 中 ,算法 发 现 频繁 项 集 
的 过 程 如 下 : 

(1) 构建 FP 树 。 

(2) 从 FP 树 中 挖掘 频繁 项 集 。 

FP 树 通过 逐个 读 入 事务 ,并 把 事务 映射 到 FP 树 中 的 一 条 路 径 来 构造 。 由 于 不 
同 的 事务 可 能 会 有 若干 个 相同 的 项 ,所 以 它们 的 路 径 可 能 部 分 重 释 。 路 径 相互 重 秋 
越 多 ,使 用 FP 树 结构 获得 的 压缩 效果 越 好 ; 如 果 FP 树 足够 小 ,能 够 存放 在 内 存 中 ， 
就 可 以 直接 从 这 个 内 存 中 的 结构 提取 频繁 项 集 ,而 不 必 重 复 地 扫描 存放 在 硬盘 上 的 
数据 。 

一 棵 FP 树 如 图 11.6 所 示 。 


t2 —————tl 


图 11.6 典型 FP 树 示例 


FP 树 的 根 结 点 用 9 表示 ,其 余 结 点 包括 一 个 数据 项 和 该 数据 项 在 本 路 径 上 的 支 
持 度 ; 每 条 路 径 都 是 一 条 训练 数据 中 满足 最 小 支持 度 的 数据 项 集 ,路 径 用 箭头 线条 
表示 ; FP 树 还 将 所 有 相同 项 连接 成 链表 ,用 线条 表示 。 

为 了 快速 访问 树 中 的 相同 项 ,还 需要 维护 一 个 连接 具有 相同 项 的 结 点 的 指针 列 
表 (headTable) ,每 个 列表 元 素 包括 数据 项 \ 该 项 的 全 局 最 小 支持 度 、 指 向 FP 树 中 该 
项 链表 的 表 头 的 指针 ,如 图 11.7 所 示 。 

FP-growth 算法 需要 对 原始 训练 集 扫描 两 遍 以 构建 FP 树 。 第 一 次 扫描 ,过 滤 掉 


C 
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图 11.7 具有 结 点 指针 列表 的 FP 树 


所 有 不 满足 最 小 支持 度 的 项 ; 对 于 满足 最 小 支持 度 的 项 ,按照 全 局 最 小 支持 度 排序 ， 


在 此 基础 上 ,为 了 处 理 方便 ,也 可 以 按照 项 的 关键 字 再 次 排序 。 


现在 假设 有 如 表 11. 2 所 示 的 数据 。 


表 11.2 原始 数据 集 


事务 ID 事务 中 的 项 事务 ID 事务 中 的 项 
1 rz,h,j,p 4 T，X，n，0，S 
2 Zr yy» XxX, Wr Vs Us t，S 5 y，Tr，Xx，z，q，t，Pp 
3 z 6 y，z，Xx，e，q，s， t，m 


首先 第 一 次 遍历 整个 数据 集 , 统 计 每 个 元 素 项 的 出 现 频率 ,去 掉 不 满足 最 小 支持 


度 ( 这 里 假设 为 3) 的 元 素 项 ,处 理 的 结果 如 表 11. 3 所 示 。 


表 11.3 移 除非 频繁 项 后 的 数据 


事务 ID 事务 中 的 项 过 滤 及 重新 排序 后 的 项 
1 r,z, h,j,p | 
2 ZYy» XxX, Wr Vs Us, t,s Zz, xX, y» sst 
3 z z 
4 T，X，n，0，S XxX» Ss 
5 ys r,s Xs Zs qs ty p By Kr ye Ys 
6 y，z，x，e，q，s，t，m By 9 yy Bk 
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注意 到 这 里 由 于 将 最 小 支持 度 设 为 3, 所 以 ej、m、p、q、v、u、w、o 等 项 被 去 除 掉 ， 
仅 剩 下 z、x.y、r、st 等 项 。 

接 下 来 进行 第 二 次 扫描 ,同时 构建 FP 树 。 参 与 扫描 的 是 过 滤 后 的 数据 ,如 果 某 
个 数据 项 是 第 一 次 遇 到 , 则 创建 该 结 点 ,并 在 headTable 中 添加 一 个 指向 该 结 点 的 指 
针 ; 否则 按 路 径 找 到 该 项 对 应 的 结 点 ,修改 结 点 信息 。 具 体 过 程 如 图 11.8 一 图 11. 13 
所 示 。 


1 


EG 
a 
2 


图 11.9 扫描 事务 2 后 的 FP 树 图 11.10 扫描 事务 3 后 的 FP 树 
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图 11.11 扫描 事务 4 后 的 FP 树 


图 11. 12 扫描 事务 5 后 的 FP 树 
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图 11.13 扫描 事务 6 后 的 FP 树 


2. FP-growth 算法 的 Python 实现 
为 了 构建 FP 树 , 需 要 构建 一 个 FP 树 的 数据 结构 : 


class treeNode: 
def init (self, nameValue, numOccur, parentNode): 
self. name = nameValue 
self. count = numOccur 
self. nodeLink = None 
self. parent = parentNode 
self. children= {} 


def inc(self, numOccur): 
self. count += numOccur 


def disp(self, ind=1): 
print(' '* ind, self.name, '', self.count) 
for child in self. children. values(): 
child. disp(ind + 1) 


该 类 中 包含 了 用 于 存放 结 点 名 字 的 变量 和 一 个 计数 值 ,还 用 了 父 变量 parent 来 
指向 当前 结 点 的 父 结 点 。 此 外 ,类 中 还 包含 一 个 空 字典 变量 ,用 于 存放 结 点 的 子 结 
点 。inc() 方 法 用 于 增加 count 的 数值 。dispO 〇 函数 以 文本 形式 显示 FP 树 。 


加 
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下 面 测 试 一 下 上 述 代 码 : 


>>> rootNode = treeNode( 'a', 9, None) 
>>> rootNode. children[ 'b'] = treeNode( 'b', 13, None) 
>>> rootNode. disp() 


9 
1 
下 面 是 构建 FP 树 的 函数 : 


def createTree(dataSet, minSup= 1): 
headerTable = {} 
for trans in dataSet: 
for item in trans: 
headerTable[ item] = headerTable. get (item, 0) + dataSet[trans] 
for k in list(headerTable): 
if headerTable[k] < minSup: 
del (headerTable[k]) 
freqItemSet = set(headerTable. keys()) 
if len(freqItemSet) == 0: 
return None, None 
for k in headerTable: 
headerTable[k] = [headerTable[k], None] 
retTree = treeNode( 'Null Set', 1, None) 
for tranSet, count in dataSet. items(): 
localD= {} 
for item in tranSet: 
if item in freqItemSet: 
localD[ item] = headerTable[ item][0] 


if len(localD) > 0: 
orderedItems = [v[0] for v in sorted( localD. items(), key = lambda p: p[1], 
reverse= True)] 
updateTree( orderedItems, retTree, headerTable, count) 
return retTree, headerTable 


def updateTree( items, inTree, headerTable, count): 
if items[0] in inTree. children: 
inTree. children[ items[0]]. inc(count) 
else: 
inTree. children[ items[0]] = treeNode( items[0], count, inTree) 
if headerTable[ items[0]][1] == None: 
headerTable[ items[0]][1] = inTree. children[ items[0]] 
else: 
updateHeader (headerTable[ items[0]][1], inTree.children[ items[0]]) 
if len(items) > 1: 
updateTree( items[1::], inTree. children[ items[0]], headerTable, count) 


| 第 11 章 “机 器 学 习 一 一 无 监督 学 习 (301 
dO 


def updateHeader(nodeToTest, targetNode): 
while (nodeToTest. nodeLink != None): 
nodeToTest = nodeToTest. nodeLink 
nodeToTest. nodeLink = targetNode 


第 一 个 函数 createTree() 用 于 构建 FP 树 , 需 要 输入 数据 集 及 最 小 支持 度 作 为 参 
数 。 树 的 构建 过 程 需要 遍历 数据 集 两 次 ,第 一 次 遍历 统计 每 个 元 素 项 出 现 的 频 度 ,第 
二 次 遍历 频繁 项 集 , 并 调用 updateTree() 方 法 对 FP 树 进行 填充 更 新 。 

为 了 查看 FP 树 的 构建 效果 ,这 里 手工 创建 一 些 实例 数据 : 


def loadSimpDat() : 

simpDat = [['r', ‘2 hy， 3 p], 
| 可 人 J A Me 人 my J VY 起 风 
[3b 
Le 
YE 
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return simpDat 


def createInitSet(dataSet) : 
retDict = {} 
for trans in dataSet: 
retDict[frozenset(trans)] =1 
return retDict 


下 面 查看 代码 的 运行 效果 : 


>>> simpDat = loadSimpDat( ); 
>>> initSet = createInitSet( simpDat) 
>>> myFPtree, myHeaderTab = createTree( initSet, 3) 
>>> myFPtree. disp() 
Null Set 1 
.200 
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结果 中 给 出 了 各 元 素 项 及 其 频 度 ,每 个 缩 进 表示 其 所 处 的 树 的 深度 。 

有 了 FP 树 之 后 就 可 以 开始 从 中 提取 频繁 项 集 了 。 首 先 从 1 项 集 开始 ,逐渐 构建 
更 大 的 项 集 。 在 构建 时 完全 基于 FP 树 , 而 不 需要 读 取 原始 事务 集 。 整 个 提取 步骤 
包括 : 

(1) 从 FP 树 中 获得 条 件 模式 基 。 

(2) 利用 条 件 模式 基 构 建 一 个 条 件 FP 树 。 

(3) 重复 步骤 (1) 和 (2) ,直到 树 包含 一 个 元 素 项 为 止 。 

首先 从 FP 树 头 指针 表 中 的 单个 频繁 元 素 项 开始 。 对 于 每 一 个 元 素 项 ,获得 其 对 
应 的 条 件 模式 基 ,单个 元 素 项 的 条 件 模式 基 也 就 是 元 素 项 的 关键 字 。 条 件 模式 基 是 
以 所 查找 元 素 项 为 结尾 的 路 径 集 合 。 每 一 条 路 径 其 实 都 是 一 条 前 级 路 径 。 简 而 言 
之 ,一 条 前 缀 路 径 是 介 于 所 查找 元 素 项 与 树 根 结 点 之 间 的 所 有 内 容 。 

下 列 代码 给 出 了 前 级 路 径 发 现 的 过 程 : 

def ascendTree( leafNode, prefixPath): 

if leafNode. parent != None: 


prefixPath. append( leafNode. name) 
ascendTree( leafNode. parent, prefixPath) 


def findPrefixPath(basePat, treeNode): 


condPats = {} 
while treeNode != None: 
prefixPath=[] 


ascendTree( treeNode, prefixPath) 
if len(prefixPath) > 1: 
condPats[ frozenset(prefixPath[1:])] = treeNode. count 
treeNode = treeNode. nodeLink 
return condPats 


上 述 代码 通过 访问 树 中 所 有 包含 给 定 元 素 项 的 结 点 为 给 定 元 素 项 生成 一 个 条 件 
模式 基 。 
对 于 每 一 个 频繁 项 集 ,都 需要 构建 一 棵 条 件 FP 树 。 
def mineTree( inTree，headerTable，minSup，preFix，freqItenList) : 
bigL = [v[0] for v in sorted(headerTable. items(), key= lambda p: str(p[1]))] 


for basePat in bigL: 
newFreqSet = preFix. copy( ) 
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newFreqSet. add(basePat) 
freqItemList.append(newEreqSet) 
condPattBases = findPrefixPath(basePat, headerTable[basePat][1]) 
myCondTree, myHead = createTree(condPattBases，minSup) 
if myHead != None: 
print ('conditional tree for: ',newFreqSet) 
myCondTree. disp(1) 
mineTree( myCondTree, myHead, minSup, newFreqSet, freqItemList) 


该 函数 通过 递归 去 查找 频繁 项 集 ,直到 树 中 没有 元 素 项 为 止 。 
本 章 小 结 


(1) 本 章 介绍 了 聚 类 问题 ,并 给 出 了 两 个 常用 算法 K-Means 和 DBSCAN。 这 两 
个 算法 各 有 优 劣 ,需要 针对 数据 的 具体 情况 苦 酌 使 用 。 

(2) 本 章 介 绍 了 关联 分 析 问 题 , 并 给 出 了 两 个 常用 算法 Apriori 和 FP-growth。 

(3) 本 章 的 4 个 算法 均 给 出 了 基于 Python 的 具体 实现 和 应 用 。 


习题 


1. 在 K-Means 算法 中 ,比较 取 不 同 K 值 时 的 聚 类 效果 。 
2. K-Means 和 DBSCAN 算法 各 有 何 优 劣 ? 

3. 为 什么 说 挖掘 关联 规则 的 核心 是 挖掘 频繁 项 集 ? 

4. 如 何 理解 FP-growth 算法 相 比 Apriori 来 说 更 为 高 效 ? 


Python 地 理 空 间 分 析 


本 章 学 习 目 标 : 

。 理解 地 理 空间 分 析 的 基本 概念 

。 了 解 常用 的 地 理 空间 数据 及 其 组 织 、 结 构 

。 熟练 掌握 常用 的 Python 地 理 空间 分 析 工 具 

。 熟练 掌握 使 用 Python 进行 针对 地 理 信息 系统 的 地 理 空间 分 析 
。 熟练 掌握 使 用 Python 进行 针对 逐 感 的 地 理 空间 分 析 


12.1 地 理 空 间 分 析 简 介 


12.1.1 地 理 空间 分 析 的 基本 概念 


随 着 现代 科学 技术 (尤其 是 计算 机 技术 ) 引 入 地 图 学 和 地 理学 ,地 理 信息 系统 开 
始 孕 育 、 发 展 ,以 数字 形式 存在 于 计算 机 中 的 地 图 向 人 们 展示 了 更 为 广阔 的 应 用 领 
域 。 利 用 计算 机 分 析 地 图 、 获 取信 息 、 支 持 空间 决策 成 为 地 理 信息 系统 的 重要 研究 内 
容 ,“ 空 间 分 析 ” 这 个 词 也 就 成 为 这 一 领域 的 一 个 专门 术语 。 
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空间 分 析 主要 通过 空间 数据 和 空间 模型 的 联合 分 析 来 挖掘 空间 目标 的 潜在 信 
息 ,而 这 些 空间 目标 的 基本 信息 无 非 是 其 空间 位 置 .分 布 ,形态 ,距离 方位 ,拓扑 关系 
等 ,其 中 距离 方位、 拓扑 关系 组 成 了 空间 目标 的 空间 关系 , 它 是 地 理 实体 之 间 的 空间 
特性 ,可 以 作为 数据 组 织 查询、 分 析 和 推理 的 基础 。 通 过 将 地 理 空间 目标 划分 为 点 、 
线 、 面 不 同 的 类 型 ,可 以 获得 这 些 不 同类 型 目标 的 形态 结构 。 将 空间 目标 的 空间 数据 
和 属性 数据 结合 起 来 ,可 以 进行 许多 特定 任务 的 空间 计算 与 分 析 。 

任何 信息 都 含有 空间 、 时 间 、 属 性 特征 。 例 如 水 文 走向 含 属 性 和 时 间 特 征 ,疾病 
传播 含 时 间 、 空 间 和 属性 特征 ,而 河道 演变 则 反映 了 空间 形态 特征 随时 间 变 化 的 性 
质 。 国 内 外 许多 学 者 都 对 空间 分 析 进 行 研究 ,但 是 对 空间 分 析 下 定义 是 比较 困难 的 ， 
目前 尚 无 一 个 统一 的 定义 ,不 同 的 应 用 领域 给 出 不 同 的 含义 ,它们 的 侧重 点 各 不 相 
同 , 但 是 都 从 不 同方 面 对 空间 分 析 的 内 涵 进 行 了 阐释 ,或 侧重 于 地 理学 (地 学 ) ,或 侧 
重 于 测绘 学 (地 图 学 ) ,或 侧重 于 几何 图 形 分 析 ,或 侧重 于 地 学 统计 与 建 模 。 综 合 这 些 
学 者 的 研究 成 果 ,GIS 空间 分 析 是 使 用 几何 分 析 、 统 计 分 析 、 数 学 建 模 、 地 理 计算 等 方 
法 对 地 理 空间 中 目标 的 空间 关系 进行 描述 、 分 析 、 建 模 ,并 进一步 为 空间 决策 支持 提 
供 服务 的 技术 。 


12.1.2 地 理 空间 分 析 与 Python 


现代 的 地 理 空间 分 析 可 以 通过 商业 或 开源 的 地 理 空间 应 用 软件 轻松 完成 ,但 是 
有 时 候 使 用 编程 语言 进行 地 理 空间 分 析 也 有 必要 ,例如 : 

(1) 希望 完全 控制 底层 的 算法 ,数据 和 执行 过 程 。 

(2) 希望 用 最 小 的 代价 在 一 个 大 而 全 的 地 理 空间 框架 中 实现 重复 任务 的 自 
动 化 。 

(3) 希望 创建 一 个 程序 方便 共享 。 

(4) 希望 深入 学 习 地 理 空 间 分 析 ,而 不 只 是 击 一 下 鼠标 按键 。 

理 空间 行业 正 逐 渐 脱 离 曾经 的 那 种 需要 分 析 团队 通过 昂贵 的 桌面 软件 生产 地 

理 空间 产品 的 传统 工作 模式 。 当 前 地 理 空间 分 析 趋 向 于 通过 云 模式 进行 自动 化 过 程 
处 理 。 终 端 用 户 软 件 趋向 于 解决 特定 任务 的 工具 ,而 且 很 多 还 支持 移动 设备 访问 。 
地 理 空间 概念 和 数据 的 知识 与 个 性 化 地 理 空间 分 析 过 程 一 样 ,是 人 们 将 来 从 事 地 理 
空间 工作 的 基础 。 
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Python 语言 以 “多 面 手 ” 而 闻名 , 它 可 以 是 设计 良好 的 面向 对 象 编程 语言 ,也 可 
以 是 过 程式 脚本 语言 ,甚至 还 可 以 是 函数 式 编程 语言 。 但 总 的 来 说 面向 对 象 是 
Python 天 然 的 也 是 最 大 的 优势 。 地 理 空间 分 析 和 面向 对 象 编程 是 天 生 的 一 对 。 在 
大 部 分 面向 对 象 编程 项 目 中 对 象 都 是 抽象 的 概念 ,例如 数据 库 连接 在 现实 生活 中 是 
无 法 找到 参照 物 的 ,但 是 在 地 理 空间 分 析 领 域 ,被 建 模 的 对 象 都 可 以 和 现实 生活 对 
应 。 地 理 空间 分 析 研 究 的 范围 就 是 地 球 上 的 一 切 ,例如 植被 建筑 物 、 河 流 、 人 以 及 其 
他 对 象 共 同 组 成 了 地 理 空间 系统 。 


12.2 地 理 空 间 数 据 


12.2.1 数据 格式 概览 


对 于 地 理 空间 分 析 来 说 ,最 常见 到 的 主要 是 如 下 数据 格式 : 
。 电子 表格 .逗号 分 隔 文件 (CSV 文件 ) 。 
。 地 理 标记 照片 。 
。 轻 量 级 的 二 进 制 点 `. 线 和 多 边 形 。 
GB 级别 的 卫星 和 航空 影像 。 
。 高 程 数据 ,例如 网 格 、 点 云 和 基于 整数 的 影像 。 
。 XML 文件 。 
JSON 文件 。 
。 数据 库 。 
Web 服务 。 

每 种 格式 都 会 在 访问 和 处 理 方面 存在 特有 的 问题 ,所 以 在 进行 数据 分 析 时 通常 
不 得 不 预先 处 理 它们 。 例 如 也 许 需要 从 一 张大 的 卫星 影像 中 剪裁 或 者 提取 感 兴 趣 的 
区 域 , 或 者 想 减 少数 据 集中 点 的 数量 只 留 下 符合 特定 标准 的 部 分 ,这 通常 被 称 为 预 处 
理 。 另 外 ,地 理 空间 数据 有 其 特有 的 预 处 理 过 程 , 即 投影 。 

在 本 章 中 有 两 个 概念 经 常 被 提 及 , 即 矢量 数据 和 栅 格 数据 ,它们 是 大 部 分 地 理 空 
间 数 据 集 分 类 的 默认 方式 。 矢 量 数据 可 以 是 任何 包含 点 、 线 、 多 边 形 等 地 理 位 置 数据 
的 文件 ; 栅 格 数据 可 以 是 任何 以 行列 式 网 格 存储 数据 的 文件 , 栅 格 数据 还 包括 所 有 
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图 片 格式 的 文件 。 
12.2.2 数据 特征 


地 理 空间 数据 有 一 些 共同 的 特征 ,用 户 了 解 这 些 特 征 有 利于 通过 空间 数据 的 共 
性 了 解 那些 不 熟悉 的 数据 格式 。 现 有 的 数据 格式 的 结构 通常 是 由 它 的 用 途 决定 的 ， 
某 些 数据 存储 和 压缩 很 高 效 , 某 些 数据 访问 性 好 , 某 些 数据 轻 量 级 、 易 读 , 某 些 数据 兼 
容 性 好 。 当 然 , 易 用 性 对 于 地 理 分 析 来 说 是 非常 重要 的 ,简单 的 数据 格式 对 于 整合 和 
分 析 来 说 能 提供 最 大 的 支持 。 

地 理 空间 分 析 是 信息 处 理 技术 在 地 理学 上 的 应 用 ,因此 地 理 空间 数据 有 两 个 最 
重要 的 组 成 部 分 , 即 地 理 位 置 和 主题 信息 。 此 外 ,空间 数据 的 另外 一 个 共性 是 空间 
索引 。 

(1) 地 理 位 置 : 地 理 信 息 是 由 地 球 上 的 一 个 点 和 与 之 相关 的 信息 所 构成 的 。 这 
个 位 置 通常 是 球面 上 的 一 个 坐标 点 (用 经 纬度 来 表示 ) ,或 者 是 将 其 映射 到 一 个 平面 
空间 上 的 一 点 (用 x,y 坐标 表示 )。 

(2) 主题 信息 : 主题 信息 涵盖 的 范围 广泛 , 它 可 以 是 组 成 地 面 可 视 影 像 图 片 的 像 
素 , 也 可 以 是 一 张 处 理 多 光谱 的 图 片 ,还 可 以 是 某 种 数据 库 中 行 和 列 的 每 种 地 理化 
特征 。 

(3) 空间 索引 : 地 理 空间 数据 集 文件 通常 都 非常 大 , 动 辑 几 百 MB 到 几 GB 大 
小 ,因此 在 处 理 和 执行 分 析 中 多 次 访问 大 型 文件 时 效率 非常 低下 。 空 间 索 引 能 够 创 
建 一 个 向 导 ,让 软件 无 须 扫描 数据 集中 的 每 一 行 记录 而 快速 定位 查询 结果 。 常 用 的 
空间 索引 算法 为 四 又 树 索 引 和 R 树 索 引 。 


12.2.3 矢量 数据 


矢量 数据 是 存储 空间 信息 最 有 效 的 一 种 方式 ,一般 来 讲 计算 机 通过 矢量 存储 和 
处 理 地 理 信 息 所 需 的 资源 要 远 少 于 栅 格 数据 。 例 如 ,如 果 要 表达 一 条 直线 道路 ,矢量 
数据 只 需要 存储 道路 起 点 和 终点 的 坐标 即 可 ,而 栅 格 数据 则 要 存储 这 条 直线 道路 上 
的 每 一 个 点 (至 于 具体 需要 多 少 个 点 来 存储 这 条 道路 ,取决 于 该 栅 格 数据 的 分 辨 率 ) 。 
与 计算 机 图 形 学 中 的 矢量 概念 不 同 的 是 ,地 理 空 间 矢 量 数据 可 以 有 正 / 负 值 ( 取 
决 于 地 理 原点 ) ,并 且 地 理 空间 矢量 数据 还 包含 一 些 与 几何 对 象 相关 的 其 他 信息 , 例 
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如 表达 房屋 坐落 的 矢量 点 除了 存储 房屋 位 置 之 外 ,还 会 存储 该 房屋 的 类 型 .所 有 人 、 
建造 时 间 等 ; 表达 道路 的 矢量 线 除了 存储 道路 位 置 之 外 ,还 会 存储 道路 级 别 、 道 路 名 
称 、 是 否 单行 等 信息 。 

目前 可 用 的 矢量 数据 格式 超过 200 种 ,非常 多 , 既 有 开源 的 矢量 格式 ,也 有 商业 
软件 内 置 的 矢量 格式 。 矢 量 数据 文件 可 以 是 二 进 制 存储 ,也 可 以 是 纯 文 本 文件 存储 。 
其 中 , 纯 文 本 矢量 数据 文件 包括 CSV、GeoJSON 和 XML 等 ,该 类 型 文件 对 于 计算 机 
和 人 类 来 说 都 是 可 读 的 ,但 是 文件 大 小 比 二 进 制 文件 大 很 多 。 二 进 制 矢量 数据 文件 
中 最 流行 的 是 Shapefile。 

Shapefile 最 早 由 ESRI 公 司 提出 ,并 在 1998 年 将 其 标准 作为 一 种 开放 规范 发 布 。 
该 格式 因 其 规范 开放 ,高 效 .简单 而 逐渐 成 为 事实 上 的 地 理 信 息 系统 标准 。 今 天 几乎 
所 有 跟 地 理 空间 相关 的 软件 和 开发 工具 都 提供 了 对 Shapefile 文件 的 支持 。 在 
Python 中 可 以 通过 OGR 库 模 块 实现 对 Shapefile 的 解析 和 操作 。 

Shapefile 格式 的 特点 之 一 是 它 由 多 个 文件 组 成 ,其 中 3 种 文件 是 必需 的 ,另外 有 
十 几 种 可 选 扩展 文件 。 表 12. 1 描述 了 部 分 Shapefile 文件 格式 信息 。 


表 12.1 Shapefile 文件 格式 信息 


用 途 


用 于 存储 要 素 几 何 的 主 文件 ,其 中 包 
括 几 何 图 形 


必要 文件 


形状 索引 文件 ,适当 尺寸 的 几何 元 素 
索引 信息 可 以 加 快 访问 速度 


必要 文件 。 这 个 文件 必须 和 . shp 文件 配 
合 使 用 ,否则 没有 意义 


数据 库 文件 ,其 中 包括 几何 元 素 的 属 


. dbf 性 信息 必要 文件 
空间 . bin 文件 ,Shapefile 文件 的 索引 | 包含 一 个 特征 的 边框 ,映射 了 一 个 256 X 
文件 256 的 整数 网 格 


.sbn 文件 的 索引 记录 文件 


打开 一 个 文件 ,只 写 。 如 果 该 文件 存在 ， 
则 覆盖 该 文件 ; 如 果 该 文件 不 存在 , 则 在 
该 路 径 下 创建 一 个 新 的 文件 ,用 于 写 人 


Pr 


以 WKT 格式 存储 的 地 图 投影 信息 


很 常见 的 文件 ,常用 于 GIS 软件 中 的 地 图 
实时 投影 


对 于 一 个 Shapefile 文件 来 说 ,都 是 由 若干 上 述 文件 共同 构成 的 ,这 意味 着 每 个 


Shapefile 文件 都 会 具有 同名 的 几 个 文件 。 如 果 需 要 对 一 个 Shapefile 文件 重 命名 , 那 
么 需要 确保 将 上 述 所 有 文件 改 成 同一 个 名 字 。 在 各 种 GIS 软件 中 会 将 这 些 数 据 集 当 
成 同一 个 文件 看 待 。 
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12.2.4 栅 格 数据 


在 地 理 信息 系统 领域 更 多 地 使 用 术语 “ 栅 格 ”来 指 代 影像 数据 。 栅 格 数据 由 若干 
行 或 列 的 单元 或 像素 (术语 称 为 像 元 ) 所 构成 ,每 个 单元 表达 为 一 个 数值 ,该 数值 可 以 
代表 计算 机 的 显示 亮度 ,也 可 以 是 真实 世界 的 物理 量 ( 例 如 辐射 强度 或 光谱 反射 率 )。 
用 户 可 以 将 栅 格 数据 理解 为 计算 机 中 的 数字 图 片 ,特殊 之 处 在 于 栅 格 图 像 反映 的 通 
常 是 地 理 信息 ,更 多 时 候 是 航天 卫星 拍摄 下 来 的 数字 影像 。 

栅 格 数据 集 可 能 包含 多 个 波段 ,这 意味 着 可 以 同时 收集 同一 区 域 中 不 同 波 长 的 
光谱 信息 ,常见 的 航天 卫星 能 够 同时 记录 3 一 7 个 波段 (例如 红 光 、 蓝 光 、 绿 光 、 近 红外 
等 ), 有 的 航天 卫星 能 够 记录 同一 区 域 中 的 数 百 个 光谱 波段 (这 被 称 为 高 光谱 卫星 ) 。 

栅 格 数据 也 包含 多 达 数 百 种 格式 ,其 中 一 些 常见 格式 为 TIFF IMG JPEG 等 。 
TIFF(The Tagged Image File Format, 标 记 化 图 片 文件 格式 ) 是 地 理 信息 领域 最 常用 
的 栅 格 格式 ,其 灵活 的 标记 系统 允许 用 户 在 一 个 单独 文件 中 存储 任何 类 型 的 数据 ,可 
以 包括 概要 图 、 多 波段 , 整 型 高 程 数据 、 元 数据 等 文件 格式 。GeoTIFF 扩展 定义 了 地 
理 空间 数据 的 存储 ,常见 的 TIFF 格式 文件 的 扩展 名 为 . tiff、. tif、. gtif。 


12.3 Python 地 理 空间 分 析 工 具 


12.3.1 GeoJSON 


GeoJSON 是 一 种 对 各 种 地 理 数据 结构 进行 编码 的 格式 ,基于 JavaScript 对 象 表 
示 法 的 地 理 空间 信息 数据 交换 格式 。GeoJSON 对 象 可 以 表示 几何 、 特 征 或 者 特征 集 
合 。GeoJSON 支持 点 、 线 、 面 ,多 点 、 多 线 、 多 面 和 几何 集合 等 几何 类 型 。GeoJSON 
里 的 特征 包含 一 个 几何 对 象 和 其 他 属性 ,特征 集合 表示 一 系列 特征 。 下 面 是 包含 一 
个 点 对 象 的 GeoJSON 文档 示例 : 
{ 
"type": "Feature"， 
"id": "OpenLayers. Feature. Vector 314", 


"properties": {}, 
"geometry" { 
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"type" : "Point", 
"coordinates": [ 


120.3154, 
30.1324 
1 
}, 
Movs 
"type": "nane", 
"properties": { 
"name" : "urn:ogc:def:crs:0GC:1.3:CRS84" 
} 
日 


为 处 理 这 样 的 GeoJSON 数据 ,首先 可 以 将 此 文档 转换 成 一 个 字符 串 : 


>>> jsdata = """{ "type": "Feature", "id": "OpenLayers. Feature. Vector 314", 
"properties": {}, "geometry": {"type": "Point", "coordinates": [ 
120.3154, 30.1324 ]}, "crs": { "type": "name", "properties": { "name": 
"urn:ogc:def:crs:0GC:1.3:CRS84"}}} 
GeoJSON 看 上 去 就 像 是 Python 的 字典 和 List 对 象 的 嵌 套 组 合 ,因此 需要 使 用 
Python 的 eval() 方 法 将 其 转换 为 Python 代码 。 
>>> point = eval(jsondata) 
>>> point["geometry"] 
{ type': 'Point', 'coordinates': [120.3154, 30.1324]} 
此 外 ,在 Python 标准 库 中 提供 了 专门 的 json 模块 来 达到 相同 的 目的 ,同样 可 以 
将 上 述 字 符 串 转换 为 Python 代码 : 


>>> import json 
>>> json. loads( jsdata) 


反 过 来 ,用 户 也 可 以 使 用 json 模块 中 的 dumpsO 〇 函数 将 Python 数据 结构 转换 为 
JSON 格式 的 字符 串 : 


>>> pydata = json. loads(jsdata) 
>>> json. dumps( pydata) 


虽然 使 用 json 模块 已 经 可 以 很 好 地 读 写 GeoJSON 数据 ,但 事实 上 还 有 更 好 的 
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解决 方案 一 一 geojson 模块 。 该 模块 对 GeoJSON 格式 数据 提供 了 更 方便 的 功能 。 例 
如 , 若 要 创建 一 个 点 要 素 并 将 其 转换 为 GeoJSON 格式 ,可 以 使 用 如 下 代码 : 

>>> import geojson 

>>>p = geojson.Point([ ~ 92, 37]) 

>>> geojs = geojson. dumps(p) 


>>> geojs 
'{"type": "Point", "coordinates": [一 92，37]} 


12.3.2 GDAL 和 OGR 


GDAL(Geospatial Data Abstraction Library) 是 一 个 目前 最 流行 的 在 X/MIT 许 
可 协议 下 的 开源 栅 格 空 间 数 据 读 写 和 转换 库 , 大 多 数 地 理 信息 商业 软件 或 开发 包 都 
在 内 部 内 置 有 该 库 以 提供 对 栅 格 数据 的 全 面 支持 。 它 利用 抽象 数据 模型 来 表达 所 支 
持 的 各 种 文件 格式 。OGR 曾经 是 GDAL 项 目的 一 个 分 支 ,功能 与 GDAL 类 似 ,只 不 
过 它 提供 对 矢量 数据 的 支持 。 从 GDAL 2. 0 开始 ,GDAL 和 OGR 已 经 被 集成 起 来 共 
同 提供 服务 ,所 以 通常 把 二 者 并 称 为 GDAL/OGR。 

GDAL/OGR 使 用 统一 的 栅 格 /矢量 抽象 数据 模型 来 表达 它 支持 的 所 有 空间 数 
据 。 目 前 它 提 供 的 栅 格 数据 格式 驱动 达到 惊人 的 154 种 ,提供 的 矢量 数据 格式 驱动 
也 达到 93 种 。 关 于 该 项 目的 说 明 、 下 载 及 其 支持 的 数据 格式 可 在 其 官方 网 站 查看 ， 
网 址 为 *http://www. gdal. org/”。 

GDAL/OGR 本 身 是 使 用 C/C++ 语言 实现 的 ,但 是 它 也 对 其 他 编程 语言 例如 
Python、Ruby、VB、Java、C# 提 供 了 接口 支持 。 其 中 ,Python 的 GDAL/OGR 库 可 在 
“https://pypi. org/project/GDAL” 网 站 找到 。 若 用 户 要 安装 ,可 使 用 pip 工具 执行 
如 下 语句 : 


>>> pip install gdal 
在 安装 后 为 了 使 用 该 库 , 需 要 将 其 导入 : 
>>> from osgeo import gdal 

12.3.3 PyShp 


PyShp 是 Python Shapefile Library 的 简称 , 它 使 用 纯 Python 语言 来 对 ESRI 
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Shapefile 格式 文件 提供 读 写 支持 ,并 对 Python 2 和 Python 3 同时 提供 兼容 。 前 面 提 
到 ,Shapefile 格式 是 当前 最 流行 .最 重要 的 地 理 信息 系统 矢量 数据 格式 ,因此 掌握 对 
Shapefile 文件 格式 的 读 写 是 操作 地 理 空间 数据 的 基础 。 本 书 对 Shapefile 的 操作 主 
要 通过 PyShp 库 来 完成 。 
截至 本 书 出 版 PyShp 的 最 新 版 本 为 1. 2. 12, 对 于 该 项 目的 相关 说 明 可 在 其 官方 网 
站 找到 (https://pypi. org/project/pyshp) ,或 者 到 其 GitHub 项 目 主页 浏览 相关 代码 。 
PyShp 的 安装 文件 可 到 其 官网 下 载 ,或 使 用 如 下 pip 语句 进行 安装 : 


>>> pip install pyshp 


12.3.4 PIL 


PIL 库 原 本 是 用 来 处 理 遥 感 影像 的 ,不 过 目前 在 Python 中 一 般 用 于 图 像 编 辑 。 该 
库 本 身 使 用 C 语言 实现 ,并 专门 针对 Python 做 了 一 些 优化 。PIL 只 支持 Python 2, 对 于 
Python 3 来 说 ,建议 使 用 升级 版 本 Pillow, 用 户 可 通过 官网 “https://pypi. org/ 
project/Pillow” 下 载 并 获取 其 更 多 相关 信息 。 下 面 的 代码 实现 了 Pillow 的 常用 操作 


>>> try: 

>>> import Image 

>>> import ImageDraw 

>>> except: 

>>> from PIL import Image 

>>> from PIL import ImageDraw 

>>> import shapefile 

>>>r = shapefile. Reader("test. shp") 

>>> xdist = r.bbox[2] — r.bbox[0] 

>>> ydist = r.bbox[3] - r.bbox[1] 

>>> iwidth = 400 

>>> iheight = 600 

>>> xratio = iwidth/xdist 

>>> yratio = iheight/ydist 

>>> pixels = [] 

>>> for x,y in r. shapes()[0].points: 
px = int(iwidth — ((r.bbox[2] — x) * xratio)) 
Py = int((r.bbox[3] — Y) * yratio) 
pixels. append( (px, py)) 


>>> img = Image.new("RGB", (iwidth, iheight), "white") 

>>> draw = ImageDraw.Draw( img) 

>>> draw. polygon(pixels, outline = "rgb(203, 196, 190)", fill("rgb(198, 204, 189)") 
>>> img. save("test. png") 
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12.3.5 GeoPandas 


Pandas 是 一 款 高 性 能 的 Python 数据 分 析 库 , 它 可 以 处 理 海量 数据 表格 、 和 矩阵 以 
及 无 标记 的 统计 数据 。GeoPandas 是 由 多 个 地 理 空间 处 理 库 共同 构建 的 Pandas 地 
理 空间 扩展 , 旨 在 为 Python 处 理 空间 数据 提供 更 方便 的 操作 。 该 库 可 以 在 其 官网 
“https://pypi. org/project/geopandas” 下 载 并 找到 相关 信息 。 下 面 的 代码 将 会 打开 
一 个 Shapefile 文件 ,将 其 转换 成 GeoJSON 格式 ,并 使 用 matplotlib 库 创建 一 张 地 图 ， 
可 以 看 到 整个 操作 极其 整洁 且 方 便 。 

>>> import geopandas 

>>> import matplotlib. pyplot as plt 

>>> gdf = geopandas. GeoDataFrame 

>>> test_file = gdf.from file("test. shp") 


>>> test_file. plot() 
>>> plt. show() 


12.4 Python 分 析 矢 量 数据 


12.4.1 访问 矢量 数据 


Shapefile 文件 对 于 GIS 数据 交换 和 GIS 分 析 来 说 是 一 种 基础 数据 格式 ,对 于 
Shapefile 文件 的 编辑 和 其 他 操作 只 需要 关注 两 种 类 型 即 可 , 即 . shp 和 . dbf 文件 。 

用 户 可 以 使 用 PyShp 打开 一 个 Shapefile 文件 : 

>>> import shapefile 

>>>r = shapefile. Reader("test. shp") 


>>> 工 
< Shapefile. Reader instance at 0x00BCB760 > 


在 上 述 代码 中 首先 创建 一 个 Shapefile 文件 读 取 器 对 象 实例 ,并 且 将 其 赋 给 了 变 
量 r。 需 要 注意 的 是 , 当 将 文件 名 作为 参数 传 给 读 取 器 时 并 没有 使 用 文件 的 扩展 名 。 

一 旦 打开 一 个 Shapefile 文件 并 创建 一 个 读 取 器 对 象 ,就 可 以 获取 一 些 相关 的 地 
理 空间 信息 。 在 下 面 的 示例 中 将 通过 读 取 器 对 象 获取 Shapefile 文件 的 边框 .形状 类 
型 和 记录 总 数 等 信息 。 
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>>> r. bbox 

[ -91.3880485553174，30. 29314882296931，- 88.18631833931401，34.960911386784] 
>>> r. shapeType 

1 

>>> r. numRecords 

298 


12.4.2 Shapefile 文件 操作 


下 面 介 绍 使 用 PyShp 库 访 问 并 编辑 Shapefile 数据 的 方法 。 
使 用 PyShp 库 操作 一 个 Shapefile 文件 的 代码 如 下 : 


import shapefile 


# 创建 并 写 人 shapefile 
## 创建 一 个 点 类 型 的 名 为 test 的 shapefile 
w= shapefile. Writer( 'test', shapeType=1) 


w. field( name', 'C') # 创 建 字符 类 型 字段 name 
w. point(120, 30) # 空 间 信息 

w. record( 'Beijing') # 属 性 信息 

w.close() 

# 读 取 shapefile 

r= shapefile. Reader( 'test') 

shapes = r. shapes( ) # 读 取 空 间 信息 


print(shapes[0].points) 


records = r. records() # 读 取 属 性 信息 
print(records[0].name) 


r.close() 


上 述 代 码 引 入 了 shapefile 库 ,使 用 Reader() 函数 创 建 了 一 个 Shapefile 文件 读 取 
器 对 象 ,并 将 其 赋 给 了 变量 r。Reader() 函数 使 用 一 个 Shapefile 文件 名 作为 参数 。 
注意 ,一 个 Shapefile 文件 实际 上 至 少 包括 了 同名 的 . shp、 shx、. dbf 三 个 主 文件 (以 
及 . ptj、. sbn、. sbx 等 扩展 文件 ) ,向 Reader() 传 递 参数 时 仅 需要 提供 文件 名 即 可 ,不 
需要 附带 扩展 名 。 当 然 ,附带 任意 一 种 Shapefile 的 扩展 名 也 能 照常 执行 。 例 如 ,下 
列 各 行 代码 的 执行 效果 完全 一 样 : 

>>> = shapefile.Reader("MS") 


>>>r = shapefile. Reader("MS. shp") 
>>>r = shapefile. Reader("MS. dbf") 
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12.4.3 空间 查询 


空间 查询 的 涉及 面 较 广 ,其 中 最 常见 的 一 种 查询 方式 便 是 点 包容 性 查询 (事实 上 


点 包容 性 查询 是 三 加 分 析 的 一 个 特例 ,但 因为 极其 常见 ,将 其 单列 出 来 讨论 )。 例 如 ， 
操作 者 在 地 图 图 面 上 任意 画 一 个 框 ,需要 选中 框 内 的 某 种 点 状 要 素 ; 又 如 ,已 有 全 国 范 
围 内 的 机 场 点 位 数据 , 现 仅 需 要 选 出 江浙 、 沪 三 省 市 境内 的 所 有 机 场 。 该 查询 的 本 质 
是 从 点 要 素 集中 找到 位 于 某 个 多 边 形 内 部 的 所 有 点 要 素 ,从 几何 学 视角 上 来 看 ,是 判断 
-个 点 是 否 在 指定 的 多 边 形 内 部 。 此 问题 通常 采用 光影 投射 法 处 理 , 该 方法 从 测试 点 
创建 一 条 直线 并 穿 过 多 边 形 ,之 后 计算 其 和 多 边 形 每 条 边 相 交 后 产生 的 点 的 个 数 , 若 该 
数目 是 偶数 , 则 点 在 多 边 形 外 部 ; 若是 奇数 , 则 点 在 多 边 形 内 部 。 其 实现 代码 如 下 : 


【 例 12-1】 判断 点 是 否 在 多 边 形 内 部 (代码 12-1. py)。 


def point_in poly(x, y, poly): 
if (x,y) in poly: return True 
for i in range(len(poly) ) : 
pl = None 


pl = poly[0] 
p2 = poly[1] 


pl = poly[i-1] 
p2 = poly[i] 

if pl[1] == p2[1] and pl[1] == yandx> min(p1[0], p2[0]) and x < max(p1[0], p2[0]): 
return True 


n = len(poly) 
inside = False 


plx, ply = poly[0] 
for i in range(n+ 1): 
p2x, p2y = poly[i % n] 
if y> min(ply, p2y): 
if y<= max(ply, p2y): 
if x<= max(plx, p2x): 


if ply != p2y: 
xints = (Y 一 p1Y) * (p2x— plx) / (p2y- ply) + plx 
if plx == p2x or x <= xints: 


inside = not inside 


Plx, ply = p2x, p2y 
if inside: return True 
return False 
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12.4.4 ”全 加 分 析 


尽管 点 包容 性 查询 更 常见 ,但 地 理 要 素 往往 并 不 单 以 点 要 素 形式 出 现 ,空间 关系 
也 并 不 仅仅 是 包含 关系 这 么 简单 。 例 如 ,现在 需要 知道 全 国 高 速 路 网 中 哪些 道路 跨 
越 了 多 个 省 市 ,哪些 道路 仅 位 于 单一 省 份 内 部 ,这 涉及 线 状 要 素 与 多 边 形 的 相交 及 包 
含 关 系 ; 又 如 ,在 城市 规划 管理 中 需要 判断 是 否 有 实际 建设 超越 了 规划 允许 范围 , 侵 


占 了 公共 用 地 空间 ,这 涉及 多 边 形 要 素 之 间 的 相交 关系 。 


妓 加 分 析 是 地 理 信 息 系 统 中 判断 多 个 地 理 要 素 相 互 空间 关系 的 主要 工具 。 地 理 
要 素 之 间 的 空间 关系 包括 相交 、 接 触 、 穿 过 .内 部 .包含 .重奏 等 。 某 些 空间 关系 可 以 
产生 新 的 几何 对 象 , 例 如 线 要 素 之 间 的 相交 可 以 产生 一 个 点 , 面 要 素 之 间 的 相交 可 以 
产生 新 的 面 (交集 或 并 集 ) ,也 可 以 从 一 个 面 要 素 中 剪除 相交 部 分 ,将 余下 的 部 分 作为 
新 的 面 要 素 。OGR 库 提供 了 对 矢量 数据 执行 释 加 分 析 的 常用 方法 ,如 表 12. 2 所 示 。 


表 12.2 OGR 库 提供 的 对 矢量 数据 执行 又 加 分 析 的 常用 方法 


EE 数 功 能 参 数 返 回 
ce 相交 (1) 当前 几何 对 象 ; 相交 部 分 所 形成 的 几何 
A (2) 其 他 几何 对 象 对 象 
(1) 当前 几何 对 象 ; 合并 部 分 所 形成 的 几何 
9 
Union() 合并 (2) 其 他 几何 对 象 对 象 
_ (1) 当前 几何 对 象 ; 相差 部 分 所 形成 的 几何 
Difference() 求 差 (2) 其 他 几何 对 象 对 象 
(1) 当前 几何 对 象 ; 如 果 二 者 相交 ,返回 True， 
Jntersects() 判断 相交 (2) 其 他 几何 对 象 否则 返回 False 
Lf (1) 当前 几何 对 象 ; 如 果 二 者 相 离 , 返 回 True， 
De (2) 其 他 几何 对 象 否则 返回 False 
(1) 当前 几何 对 象 ; 如 果 二 者 相 接 ,返回 True， 
Touehest) 本 (2) 其 他 几何 对 象 否则 返回 False 
Gene 相交 (1) 当前 几何 对 象 ; 如 果 二 者 相交 ,返回 True， 
(2) 其 他 几何 对 象 否则 返回 False 
如 果 当 前 几何 对 象 在 其 他 几 
WithinO 在 内 部 es Re 何 对 象 内 部 ,返回 True, 否 
则 返回 False 
Cle 各 窟 (1) 当前 几何 对 象 ; 如 果 二 者 存在 包含 关系 , 返 
(2) 其 他 几何 对 象 回 True, 和 否则 返回 False 
eenlapay 重要 (1) 当前 几何 对 象 ; 如 果 二 者 存在 重 倒 关系 , 返 


(2) 其 他 几何 对 象 


回 True, 和 否则 返回 False 
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12.5 Python 与 遥感 


12.5.1 访问 影像 文件 


本 节 介 绍 如 何 使 用 GDAL 库 来 访问 影像 文件 。 每 个 数据 集 包 含 一 个 或 多 个 波 
段 ,每 个 波段 又 包含 像素 数据 和 可 能 的 概 视图 ,同时 数据 集中 包含 该 数据 集 所 采用 的 
地 理 参考 信息 。 

使 用 GDAL 读 取 影像 数据 极其 简单 ,核心 方法 为 如 下 函数 : 


gdal. Open(filename, eAccess) 


该 函数 有 两 个 参数 ,第 一 个 参数 必 写 ,需要 输入 一 个 文件 路 径 作为 目标 影像 文 
件 ; 第 二 个 参数 可 选 ,为 一 个 常量 (gdal. GA_ReadOnly 或 者 gdal. GA_Update) ,表示 
以 只 读 方式 还 是 以 读 写 方 式 打开 该 文件 ,考虑 到 许多 文件 的 驱动 只 支持 以 只 读 方 式 
打开 ,这 里 如 果 没 有 特殊 要 求 ,建议 选择 只 读 方式 ,或 者 不 填写 该 参数 。 如 果 影 像 文 
件 打开 成 功 , 该 函数 返回 一 个 GDAL 的 Dataset 对 象 ; 如 果 打 开 文 件 失败 ,该 函数 将 
产生 一 个 Error。 

为 了 说 明 如 何 使 用 GDAL 读 写 影像 数据 ,下 面 用 一 个 例子 将 3 个 单独 的 
Landsat TM 波段 合并 成 一 个 单独 的 RGB 影像 。 

【 例 12-2】 读 取 波段 并 合并 影像 (代码 12-2. py) 。 


from osgeo import gdal 


bandl = '/data/LT51190392010144BJC00/L5119039_03920100524_B10. TIF' 
band2 = '/data/LT51190392010144BJC00/L5119039_03920100524_B20. TIF, 
band3 = '/data/LT51190392010144BJC00/L5119039_03920100524_B30. TIF' 


in ds = gdal.0pen(bandl); 
in_band = in_ds.GetRasterBand(1) 


gtiff driver = gdal.GetDriverByName( 'GTiff') 

out ds = gtiff driver.Create('/data/out/nat color.tif', in band. XSize, in band YSize, 
3, in_band. DataType) 

out ds. SetProjection(in ds.GetProjection()) 
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out ds. SetGeoTransform( in ds. GetGeoTransform( ) ) 


in data = in band. ReadAsArray() 
out band = out_ds. GetRasterBand(3) 
out_band. WriteArray( in_data) 


in ds = gdal. Open(band2) 
out band = out_ds. GetRasterBand(2) 
out_band. WriteArray( in_ds. ReadAsArray()) 


out ds. GetRasterBand(1).WriteArray(gdal. Open(band3). ReadAsArray()) 


out_ ds. FlushCache( ) 
for i in range(1, 4): 
out_ds. GetRasterBand(i) . ComputeStatistics(False) 


out_ds. BuildOverviews( 'average', [2, 4, 8, 16, 32]) 
del out ds 


该 代码 首先 导入 了 gdal 模块 ,然后 通过 gdal. Open() 打 开 了 TM 波段 一 文件 的 
第 一 个 波段 (该 文件 事实 上 只 有 一 个 波段 )。 注 意 ,GDAL 的 波段 从 索引 1 开始 ,而 不 
是 从 0 开始 ,所 以 打开 文件 的 第 一 个 波段 需要 给 GetRasterBand() 函 数 传人 数字 1。 
接 下 来 使 用 驱动 对 象 来 创建 新 的 数据 集 ,因此 需要 找到 GeoTIFF 驱动 对 象 并 使 用 它 
的 Create() 函 数 。 该 函数 的 第 1 个 参数 为 所 创建 的 数据 集 的 路 径 , 第 2、3 个 参数 分 
别 是 新 数据 集 的 列 数 和 行 数 ,第 4 个 参数 是 新 数据 集 里 的 波段 数 ,第 5 个 参数 是 数据 
类 型 。 

在 创建 数据 集 后 就 可 以 添加 像素 值 。 因 为 已 经 有 了 来 自 GeoTIFF 的 Landsat 
波段 一 对 象 ,所 以 可 以 将 像素 值 读 进 NumPy 数组 。 由 于 Landsat 的 波段 一 是 蓝 色 波 
段 ,所 以 必须 将 其 放置 在 输出 图 像 的 第 3 个 波段 位 置 。 接 下 来 还 需要 将 红色 和 绿色 
的 Landsat 波段 添加 到 数据 集中 。 

之 后 使 用 FlushCache() 函数 将 数据 写 人 磁盘 ,最 后 建立 数据 集 的 概 视图 层 。 


12.5.2 影像 裁剪 


常见 的 遥感 影像 通常 具有 很 大 的 范围 ,例如 一 景 Landsat TM 遥感 影像 的 范围 
为 170 一 180km:, 但 实际 的 分 析 区 域 往往 远 小 于 这 个 范围 ,因此 用 户 往往 会 将 其 缩小 
至 感 兴趣 的 那个 区 域 影像 。 为 了 达到 这 个 目的 ,最 好 的 做 法 是 根据 目标 区 域 的 预定 
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AS 


边框 对 影像 进行 裁剪 ,可 以 使 用 Shapefile 文件 作为 边框 定义 文件 并 将 边框 之 外 的 数 
据 移 除 。 图 12. 1 是 包含 杭州 市 边界 线 的 Landsat TM 影像 的 截图 。 


图 12.1 杭州 市 边界 线 的 Landsat TM 影像 截图 


为 了 对 图 片 进行 裁剪 ,需要 执行 如 下 步 又: 

(1) 使 用 gdal_array 将 图 片 作为 数组 载 人 。 

(2) 使 用 PyShp 库 创建 一 个 Shapefile 文件 读 取 器 。 

(3) 栅 格 化 Shapefile 文件 使 之 成 为 一 张 包含 地 理 参照 信息 的 图 片 。 

(4) 将 Shapefile 文件 影像 作为 过 滤器 只 获取 Shapefile 文件 边框 内 的 影像 像素 值 。 
(5) 使 用 上 述 掩 膜 图 片 对 遥感 影像 过 滤 。 

(6) 删除 不 在 边框 范围 内 的 遥感 影像 数据 。 

(7) 将 裁剪 后 的 遥感 影像 保存 为 独立 文件 。 

【 例 12-3】 影像 裁剪 (代码 12-3. py) 。 


import operator 
from osgeo import gdal, gdal array, osr 
import shapefile 
try: 
import Image 
import ImageDraw 
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except: 
from PIL import Image, ImageDraw 
raster = "stretched.tif" 
shp = "hancock" 
output = "clip" 


def imageToArray(i): 
a = gdal array. numpy. fromstring(i. tostring(), 'b') 
a. shape = i. im.size[1], i.im.size[0] 
returna 


def world2Pixel (geoMatrix, x, y): 
ulxX = geoMatrix[0] 
ulY = geoMatrix[3] 
xDist = geoMatrix[1] 
yDist = geoMatrix[5] 
rtnX = geoMatrix[2] 
rtnX = geoMatrix[4] 
pixel = int((x — ulX) / xDist) 
line = int((ulY - y) /abs(yDist)) 
return (pixel, line) 


srcArray = gdal array.LoadFile(raster) 
srcImage = gdal.Open(raster) 

geoTrans = srcImage.GetGeoTrasform() 

r = shapefile.Reader("().shp".format(shp)) 
minX, minY, maxX, maxY = r.bbox 

ulX, ulY = world2Pixel(geoTrans, minX, maxY) 
lrX, lrY = world2Pixel(geoTrans, maxX, minY) 


pxWidth = int(lrX 一 ulX) 
pxHeight = int(lrY - ulY) 
clip = srcArray[:, ulY:lrY, ulX:1rX] 


geoTrans = list(geoTrans) 
geoTrans[0] = minX 
geoTrans[3] = maxY 


pixels = [] 
for p in r. shape(0). points: 

pixels. append(world2Pixel(geoTrans, p[0], p[1])) 
rasterPoly = Image.new("L", (pxWidth, pxHeight), 1) 


rasterize = ImageDraw.Draw(rasterPoly) 

rasterize. polygon(pixels, 0) 

mask = imageToArray(rasterPoly) 

clip = gdal array.numpy.choose(mask, (clip, 0)).astype(gdal array. numpy. uint8) 

gdal array. SaveArray(clip, "().tif".format(output), format = "GTiff", prototype = raster) 
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12.5.3 重 采样 
【 例 12-4】 重 采样 示例 (代码 12-4. py) 。 
import os 
from osgeo import gdal 
in ds = gdal.Open( 'input. tif') 
in band = in ds.GetRasterBand(1) 


out rows = in band.YSize * 2 
out columns = in band.XSize * 2 


gtiff_driver = gdal.GetDriverByName( 'GTiff') 
out ds = gtiff driver.Createl('bandl resampled.tif', out_columns, out_rows) 


out_ds. SetProjection( in_ds. GetProjection()) 
geotransform = list(in ds.GetGeoTransform()) 
geotransform [1] /= 2 

geotransform [5] /= 2 

out_ds. SetGeoTransform(geotransform) 


data = in band. ReadAsArray(buf xsize= out columns, buf ysize= out_rows) 
out band = out ds.GetRasterBand(1) 
out_band. WriteArray(data) 


out_band. FlushCache( ) 

out_band. ComputeStatistics(False) 

out_ds. BuildOverviews( 'average', [2, 4, 8, 16, 32, 64]) 
del out_ds 


12.5.4 影像 分 类 


遥感 图 像 通过 亮度 值 或 像 元 值 的 高 低 差 异 及 空间 变化 来 表示 不 同 地 物 的 差异 ， 
这 是 区 分 不 同 图 像 地 物 的 物理 基础 。 倘 感 图 像 分 类 就 是 利用 计算 机 通过 对 遥感 图 像 
中 各 类 地 物 的 光谱 信息 和 空间 信息 进行 分 析 ,选择 特征 ,将 图 像 中 的 每 个 像 元 按照 某 
种 规则 或 算法 划分 为 不 同 的 类 别 , 然 后 获得 遥感 图 像 中 与 实际 地 物 的 对 应 信息 ,从 而 
实现 遥感 图 像 的 分 类 。 通 常 分 类 方法 可 以 分 为 两 种 , 即 监督 分 类 与 非 监 督 分 类 。 监 
督 分 类 用 被 确认 类 别 的 样本 像 元 去 识别 其 他 未 知 类 别 像 元 ,其 中 确认 类 别 像 元 可 通 
过 目 视 识 别 或 野外 调查 得 到 ,同时 用 这 些 种 子 类 别 对 判决 函数 进行 训练 ,之 后 再 用 训 
练 好 的 判决 函数 对 其 他 待 分 数据 进行 分 类 ,使 每 个 像 元 和 训练 样本 作 比 较 , 将 其 划分 
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到 与 其 最 相似 的 样本 类 。 非 监督 分 类 仅仅 依靠 图 像 上 不 同类 别 的 地 物 光 谱 信息 进行 
特征 提取 ,再 统计 特征 的 差别 来 达到 分 类 的 目的 。 本 书 以 非 监 督 分 类 为 例 介 绍 使 用 
Python 对 遥感 影像 进行 分 类 的 方法 和 过 程 
为 了 执行 分 类 算法 ,这 里 引入 Python 的 spectral 模块 。 该 模块 主要 用 于 处 理 高 
光谱 影像 数据 ,并 内 置 了 若干 常用 的 监督 / 非 监督 分 类 算法 。 
【 例 12-5】 影像 分 类 (代码 12-5. py) 。 


import numpy as np 
import spectral 
from osgeo import gdal 


def make_raster(in ds, fn, data, data_type, nodata = None): 
driver = gdal.GetDriverByName( 'GTiff') 
out ds = driver.Create(fn, in ds.RasterXSize, in ds.RasterYSize, 1, data type) 
out_ds. SetProjection( in ds. GetProjection()) 
out_ds. SetGeoTransform( in_ds. GetGeoTransform() ) 
out band = out ds.GetRasterBand(1) 
if nodata is no None: 
out_band. SetNoDataValue( nodata) 
out_band. WriteArray(data) 
out_band. FlushCache( ) 
out_band. ComputeStatistics(False) 
return out ds 


def stack bands(filenames): 
= 
for fn in filenames: 
= gdal. Open(fn) 
for i in range(1, ds.RasterCount + 1): 
bands. append( ds. GetRasterBand( i). ReadAsArray( )) 
return np. dstack(bands) 


raster fns = ['L5119039 03920100524 B10.TIF', 
'L5119039_03920100524_B20. TIF', 
L5119039_03920100524_B30. TIF', 
'L5119039_03920100524_B40. TIF'] 

out fn = 'kmeans prediction.tif' 


data = stack bands(raster fns) 
classes, centers = spectral.kmeans(data) 


ds = gdal.Open(raster fns[0]) 

out ds = make raster(ds, out_ fn, classes, gdal.GDT Byte) 
out_ds. FlushCache() 

del out ds, ds 
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kmeans() 函数 需要 包含 预测 变量 的 数组 作为 参数 ,同时 还 可 以 指定 所 需 的 输出 
集群 数 、 最 大 迭代 数 .初始 集群 等 ,如 果 不 填写 , 则 默认 采用 10 个 集群 和 20 个 迭代 。 


12.6 “五 水 共 治 ”资源 地 理 空间 分 析 综 合 应 用 


本 节 以 一 个 具体 的 案例 讲述 如 何 结合 遥感 与 地 理 信息 系统 对 地 理 空间 数据 进行 


依据 地 表 水 水 域 环境 功能 和 保护 目标 ,我 国 的 地 表 水 按 功 能 高 低 分 为 5 类 , 即 工 
卫 \、 了 三、N、V, 其 中 V 类 水 主要 适用 于 农业 用 水 区 及 一 般 景观 要 求 水 域 ,水 质 恶 劣 , 不 
能 作为 饮用 水 源 ,而 劣 V 类 主要 指 污染 程度 已 超过 V 类 的 水 。 随 着 高 空间 、 高 光谱 
分 辩 率 卫星 传感器 的 不 断 涌现 和 完善 ,针对 城市 复杂 水 体 的 遥感 动态 监测 已 成 为 可 
能 。 利 用 高 分 遥感 数据 监测 城市 劣 V 类 小 微 水 体 , 可 用 于 筛 查 遗 漏 劣 V 类 小 微 水 
体 ,动态 监测 水 体 黑 自 程 度 的 变化 ,定量 评价 劣 V 类 小 微 水 体 治理 成 效 ,对 于 全 面 支 
撑 城 市 劣 V 类 小 微 水 体 整 治 工作 、 落 实 “ 水 十 条 ”具有 十 分 重要 的 意义 。 

本 例 采 用 遥感 图 像 处 理 与 矢量 数据 处 理 相 结合 的 方式 ,意图 分 辩 劣 V 类 水 体 的 
具体 位 置 并 给 出 其 空间 分 布 特征 。 

在 数据 方面 ,本 例 选 取 了 高 分 1 号 卫星 作为 数据 源 。 高 分 1 号 (GF-1) 卫 星 是 我 
国 自 主 研制 的 首 颗 空间 分 辩 率 优 于 1 米 的 民用 光学 遥感 卫星 ,于 2014 年 8 月 19 日 
发 射 ,8 月 21 日 首次 开机 成 像 并 下 传 数据 。 该 卫星 搭载 有 两 台 高 分 辩 率 2 米 全 色 、8 
米 多 光谱 相机 ,具有 亚 米 级 空间 分 辩 率 ,高 定位 精度 和 快速 姿态 机 动能 力 等 特点 ( 技 
术 指 标 见 表 12. 3) ,有 效 提升 了 卫星 综合 观测 效能 。 高 分 1 号 影像 数据 具备 了 对 内 陆 
河道 观测 的 优势 ,全 色 2 米 的 分 辩 率 可 提高 水 质 观 测 精度 ,对 于 水 质 参 数 的 提取 分 析 
起 到 了 极其 重要 的 作用 。 

表 12.3 GF-1 卫星 有 效 载荷 技术 指标 
号 | 谱 段 范围 /am | 空间 分 辩 率 /m 幅 宽 /km 侧 摆 能 力 
0.45~0.52 
0.52~0.59 
0. 63 一 0. 69 45( 两 台 相机 组 合 ) | ” 士 35” 


0.77 一 0.89 
0. 45 一 0. 90 2 


全 色 多 光谱 


mm 上 won=m| 旦 
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利用 高 分 1 号 卫星 影像 对 劣 V 类 小 微 水 体 进行 识别 和 提取 主要 分 为 以 下 步骤 。 

(1) 数据 前 期 处 理 : 高 分 1 号 数据 预 处 理 .NDWI 水 体 提取 及 掩 膜 、 地 面 光 谱 和 
黑 臭 水 质 参 数 相关 建 模 。 

(2) 劣 V 类 小 微 水 体 综合 方法 提取 : 将 地 面 模 型 应 用 于 卫星 图 像 ,对 遥感 反 演 的 
CDOM 及 浑浊 度 指 标 进行 分 析 , 将 黑 自 水 体 识别 结果 进行 释 加 ,将 CDOM 与 浑浊 度 遥 
感 识别 结果 皆 为 轻 度 劣 V 类 小 微 水 体 的 水 体 判 定 为 疑似 劣 V 类 小 微 水 体 。 选 择 典型 
劣 V 类 小 微 水 体 进行 水 质 参数 测量 ,构建 劣 V 类 小 微 水 体 遥 感 识别 模型 ,利用 高 分 卫 
星 影 像 对 劣 V 类 小 微 水 体 进行 遥感 信息 识别 和 提取 ,结合 地 面 验证 和 其 他 数据 ,获得 劣 
V 类 小 微 水 体 分 布 现 状 。 劣 V 类 小 微 水 体 卫 星 遥 感 判别 分 级 指标 主要 包括 CDOM 和 
浑浊 度 ,按照 同时 满足 两 个 指标 进行 判断 分 级 标准 ,指标 如 表 12. 4 所 示 。 


表 12.4 城市 劣 V 类 小 微 水 体 卫 星 遥 感 判别 分 级 标准 


特征 指标 清洁 水 体 轻 度 重 度 
浑浊 度 C(NTU) 0 一 15 15~20 20~25 
CDOM(m-') 0 一 0. 0369 0.0370~0.0374 0.0375~0. 0379 


首先 使 用 Python 创建 一 些 常 用 函数 以 备 后 期 使 用 : 


import gdal 
from osgeo import gdal 
from osgeo import gdal array 
from osgeo import ogr 
try: 
import Image 
import ImageDraw 
except: 
from PIL import Image，ImageDraw 


def imageToArray(i): 
""" 将 Python 影像 库 的 数组 转换 成 一 个 gdal_array 图 片 """ 
a = gdal_array.numpy. fromstring(i. tostring(), 'b') 
a. shape = i. im. size[1], i. im.size[0] 
returna 


def world2Pixel (geoMatrix, x, y): 
""" 使 用 GDAL 的 geoMatrix() 方 法 计算 地 理 坐 标 对 应 的 像素 坐标 """ 
ulX = geoMatrix[0] 
ulY = geoMatrix[3] 
xDist = geoMatrix[1] 
yDist = geoMatrix[5] 
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rtnX = geoMatrix[2] 
rtnY = geoMatrix[4] 

pixel = int((x — ulX) / xDist) 
line = int((ulY - y) / abs(yDist)) 
return (pixel, line) 


def copy geo(array, prototype = None, xoffset =0, yoffset = 0): 
ds = gdal.0pen(gdal_array. GetArrayFilename(array)) 
prototype = gdal.Open(prototype) 
gdal array. CopyDatasetInfo(prototype, ds, xoff = xoffset, yoff = yoffset) 
return ds 


接 下 来 使 用 gdal_array 将 影像 直接 载 人 NumPy 数组 : 


Source = "source.tif" 

target = "ndwi.tif" 

srcArray = gdal array.LoadFile(source) 
srcImage = gdal.0pen(source) 

geoTrans = srcImage.GetGeoTransform() 
green = srcArray[1] 

ir = srcArray[3] 


提取 出 的 绿 光波 段 和 红外 波段 能 够 代入 到 NDWI 指数 公式 中 用 于 计算 ,该 公式 
执行 方程 “( 绿 光 - 近 红外 )/( 绿 光 十 近 红 外 )”。 

gdal_array. numpy. seterr(all = "ignore") 

ndwi = 1.0 * ((green - ir)/ (ir + green + 1.0)) 

ndwi = gdal array. numpy. nan to num(ndwi) 

gtiff = gdal.getDriverByName("GTiff") 


gtiff. CreateCopy(target, copy_geo(ndwi, prototype = source, xoffset = ulX, yoffset= ulY)) 
gtiff = None 


通过 NDWI 指 数 可 以 提取 遥感 影像 中 水 体 的 部 分 ,对 该 部 分 分 别 进行 浑浊 度 
和 CDOM 的 反 演 ,可 以 得 到 水 体 的 浑浊 度 和 CDOM 的 具体 数值 ,根据 表 12. 4 将 浑 
浊 度 在 10 一 20 或 CDOM 数值 在 0.0375 一 0. 0379 的 水 体 提取 出 来 ,判定 为 劣 V 类 
水 体 。 

为 了 可 视 化 劣 V 类 水 体 在 空间 上 的 分 布 ,可 以 使 用 地 理 热力 图 。 这 里 是 先 将 劣 
V 类 水 体 存储 到 Excel 表 中 ,注意 至 少 留 出 经 度 和 纬度 两 个 字段 ,分 别 命名 为 lon 
和 lat。 

【 例 12-6】 将 劣 V 类 水 体 以 热力 图 形式 展现 。 
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import numpy as np 

import pandas as pd 

import seaborn as sns 

import folium 

import webbrowser 

from folium. plugins import HeatMap 


posi = pd. read_excel ("waterV. xlsx") 
num = len(posi) 


lat = np.array(posi["lat"][0:num]) # 获 取 纬 度 值 
= np.array(posi["lon"][0:num]) 井 获取 经 度 值 


datal = [[lat[i]l,lon[i] for i in range(num)] 


map_osm = folium,Map(location = [35,110], zoom_start=5) 


HeatMap(datal) .add_to(map_osm) # 将 热力 图 添加 到 前 面 建立 的 map 里 
file_path = r”NwaterV.html" 

map_osm. save(file_path) 井 保 存 为 HTML 文件 

webbrowser. open(file_path) # 用 默认 浏览 器 打开 


热力 图 效果 如 图 12. 2 所 示 。 


12.2 热力 图 效果 


| 第 12 章 “Python 地 理 空间 分 析 @) 


本 章 小 结 


本 章 先 向 读者 介绍 地 理 空间 分 析 的 基本 概念 和 常用 的 地 理 空间 数据 ; 然后 介绍 
Python 中 与 地 理 数据 处 理 和 地 理 分 析 相 关 的 工具 ; 接着 分 别 介 绍 Python 处 理 与 分 
析 矢 量 数据 和 栅 格 数据 的 方法 ; 最 后 以 一 个 具体 案例 介绍 Python 地 理 空间 分 析 的 


综合 应 用 。 


习题 


1. 矢量 数据 与 栅 格 数据 各 有 何 特征 ? 为 何 表 达 空 间 范 围 的 地 物 , 栅 格 数据 的 数 
据 量 往往 比 矢 量 数据 大 得 多 ? 

2. 编写 一 个 Python 函数 ,输入 参数 为 经 度 (lon) 和 纬度 (lat) ,输出 结果 为 使 用 
GeoJSON 格式 所 表达 的 点 对 象 。 

3. 编写 一 个 Python 函数 ,输入 参数 为 一 个 shapefile 文件 ,要 求 在 函数 中 读 取 该 
文件 并 返回 该 矢量 数据 的 完整 属性 列表 。 


